云计算与大数据学习笔记(1月3日)

云计算与大数据笔记。

数据: 是所有能输入到计算机并被计算机程序处理的符号的总称

·数据的分类:结构化,半结构化,非结构化

·数据蕴含的价值解释现象发现规律,进而进行预测

·DIKW金字塔数据、信息、知识、智慧

·如何从数据中获取价值?:总体-抽样、或使用计算机进行数据管理和数据挖掘。

·Data Deluge:数据泛滥

·IBM大数据的“5V特性”:数量(Volume)、多样性(Variety)、速度(Velocity)、数据价值(Value)。5V:真实性(Veracity)

数据处理的一般过程

1.数据获取:

–数据获取后,需要对数据进行变换、清洗等预处理,输出满足数据应用要求的数据

2.数据管理:

–对数据进行分类、编码、存储、索引和查询

3.数据分析:

–描述性分析、诊断性分析、预测性分析和规范性分析

4.数据可视化与交互分析:

–帮助业务人员而非数据处理专家更好的理解数据分析的结果

大数据是否改变传统思维方式?:从抽样到全样,从精确到非精确,从因果到关联。

大数据计算之应对规模化

·阿姆达尔定律(可并行部分不大时,增加计算机器也不能解决任何问题。)
图片说明
·古斯塔夫森定律(并行化足够高,那么加速比和cpu个数成正比)
图片说明
想要提速。就得增大m,提高f(f为问题中可被并行处理的部分的比例,m为并行处理机的数量)。

**大数据的计算特征3I:Inexact近似性。Incremental增量性。Inductive归纳性。

数据处理链条中的其他环节:

数据获取

数据管理

数据分析

数据可视化

大数据存在的其他挑战:

·安全与隐私
·共享与汇聚
·法律与伦理

与云计算、人工智能的关系:

1.云计算是大数据汇聚和分析的计算基础设施,客观上促进了数据集中
2.数据及对数据的分析,客观上支撑了一大类人工智能任务的发展

章节习题(明天我再回过头来填):
1.请举例说明结构化数据、半结构化数据、非结构化数据的区别。
结构化数据:数据库
半结构化数据:XML文档,JSON
非结构化数据:图片和音频,文本

2.请在生活中举出一个基于“数字映像”探索或研究现实世界的实体或现象的例子,思考如何才能获得更准确的数字映像?(翻完了PPT,毫无头绪,求评论区大佬解答

3.什么是大数据的4V或5V特征,这一特征对大数据计算过程带来什么样的挑战?
4V。Volume数量(大),Value价值(密度低),Variety多样性(种类杂),Velocity速度(变化快),Veracity真实性。

4.请分析相对于传统统计学而言,大数据在思维方式上的主要变化。
从采样到全样、从精确到非精确、从因果到关联。

5.结合一个具体例子,说明数据分析的一般过程。(猜测题目中说的应该是前面所提数据处理的过程。)
数据获取(获得新冠疫情统计原始数据)、数据管理(将数据中误报,乱报数据去除,并分类整理)、数据分析(分析新冠疫情易感人群)、数据可视化和交互分析(将分析结果呈现在PPT上,进行交流学习)
6.如何理解数据科学?
用数据的方法来研究科学:采用数据分析和数据驱动的方法研究不同的学科领域,包括生物信息学、天体信息学、数字地球等领域 和
用科学的方法来研究数据:数据采集、数据存储和数据分析,覆盖了统计学、机器学习、数据挖掘、数据库等领域

全部评论

相关推荐

点赞 1 评论
分享
牛客网
牛客企业服务