云计算与大数据学习笔记(1月4日)
31号到2号都没有学习。感觉已经学到的知识都已经忘的差不多了。学习啊,学习,为什么不能像一见钟情一样令人难忘。
第二章内容:
重点1 大数据的不同来源
对现实世界的测量、人类录入计算机的数据、计算机生成的数据。
重点2 不同种类大数据的采集方法以及离散化的动机
对现实世界的采集:使用传感器。
对计算机生成数据的采集:使用日志。
现实世界是连续的,因而很多传感设备采集到的都是连续的数据,而计算机只能处理以0-1形式存在的离散数据,将连续数据变成计算机可以处理的离散数据需要数据离散化技术。:等距,等频,优化离散。
重点3 数据集成的概念
数据集成是把不同来源、格式、性质的数据在逻辑上或物理上有机地集中,通过一种一致的、精确的、可用的表示法,对同一种现实世界中的实体对象的不同数据做整合的过程,从而提供全面的数据共享,经过数据分析挖掘产生有价值的信息。
可以分为传统数据集成和跨界数据集成。
数据集成的目的是为了数据的共享。
数据映射是数据在两个不同的数据模型之间进行转换的过程。又分为:直接数据映射、语义映射。
语义翻译是使用语义信息来帮助将一个数据模型中的数据转换为另一个表示或数据模型的过程。
重点4 数据预处理的必要性和基本技术
如果数据适用于在操作、决策制定和计划中的角色,则其看做是高质量的。
如果数据正确描述其指示现实世界中的对象,则称其为高质量的。
必要性:数据不一定是高质量的,有可能出现:(数据质量的五个维度)
数据不一致:基于数据完整性约束进行修复。
数据精度低:
数据不完整:删除、统计填充、统一填充、预测填充。
数据陈旧
实体不统一:实体识别(冗余发现和重名检测)。真值发现(投票与源精度迭代)。
的问题。所以需要进行数据预处理。
基本技术:数据变换。
重点5 数据质量的相关概念
如果数据适用于在操作、决策制定和计划中的角色,则其看做是高质量的。
如果数据正确描述其指示现实世界中的对象,则称其为高质量的。
数据采集是指从真实世界对象中获得原始数据的过程。
采集方式的分类:推、拉
WEB爬虫原理:遍历策略(广度和深度),页面解析,礼貌原则。
第三章内容:
课程重点
重点1 数据可视化模型和基本流程
可视化 (Visualization)将数据转化为图形图像的视觉表达方式,通过提供交互手段帮助用户更有效地完成数据的分析、理解等任务。
基本流程:
查看20道真题和解析