云计算与大数据重点填坑(1月5日)

老师发布了考试重点,不过没有试卷,好吧,看来有点意思了。那就一点一点来填坑(编辑填坑法)(面向重点复习法)

今天把重点单独拿出来填坑

一、概念需要深入理解:

可视化技术的种类及其意义(第五章):

  1. 数据/数据集类型
    数据:类别型、序数型和数值型
    数据集

    结构化数据(Structural Data):表格数据 (Tabular Data)、网络数据 (Network Data)、场数据 (Field)和几何数据(Geographical Data)
    非结构化数据 (Non-Structural Data): 包括自然语言文本,图片、视频等,常需要转换为结构化的数据以便进行可视化

  2. 标记:基本几何元素,链接关系。

  3. 通道/可视变量(Visual Channels)

  4. 高维数据可视化:散点图矩阵、平行坐标、降维投影图、雷达图(RadViz)
    图片说明

  5. 网络数据可视化大规模网络可视化、布局算法(力导向布局、多层次布局)、表现形式

  6. 层次结构数据可视化:生物进化树、显式映射、隐式映射。

  7. 时空数据可视化:直接可视化、聚集可视化、特征可视化。

  8. 文本可视化:标签云,wordle.

社交网络用户影响力度量方法:

定义:社会影响力是社会网络中的个体由于社会地位、社会联系以及社会财富等因素,改变他人思想、行为或情感的能力。


影响力度量方法
两个个体之间的相似性越强,则越容易做出建立相互之间关系的选择。有关系的两个个体相互之间的影响力同时也会让他们之间的相似性越来越强。即影响力需要基于相似性作出相关定义


社会影响力应用
广告推荐链接预测用户行为预测

各种推荐算法的优缺点:

User-based VS Item-based
●Item-based :准确性好,表现稳定可控,便于离线计算;但是
推荐结果的多样性会差一些, 一般不会带给用户惊喜性。
●User-based :可以帮助用户发现新的商品,但是需要较复杂的
在线计算,需要处理新用户的问题。
●Item之间的相似性比较单纯,是静态的;而user之间的相似性
比较复杂,而且是动态的,应用时需要特别小心。

大数据的内涵以及大数据处理平台一些基本特点:(第七章)

Volume数量(大),Value价值(密度低),Variety多样性(种类杂),Velocity速度(变化快),Veracity真实性。
基本特点

通过分布式计算框架来实现
提供高效的计算模型和简单的编程接口
可扩展性:通过增加资源以满足不断增加的性能和功能需求
容错能力:考虑系统的不可靠性,支持出现错误后自动恢复
高效可靠I/O:缓解数据访问瓶颈问题,提高执行效率

数据共享和数据开放等含义:(第12章)

数据开放

是指一种经过挑选与许可的数据,这些数据不受著作权、专利权以及其他管理机制所限制,可以被任何人自由免费地访问、获取、利用和分享。

数据开放的核心要素:
一是数据是指原始的、未经处理的并允许个人和企业自由利用的数据,在科学研究领域这个词亦被用于指代原始的、未经处理的科学数据。如公交轨道数据,心电图数据。
二是开放,一般来说开放的概念具有两个层次的含义:1)技术上的开放,即以机器可读的标准格式开放;2)法律上的开放,即不受限制地明确允许商业和非商业利用和再利用。

数据共享

是指数据的拥有者将数据向其他机构和个人开放的行动,例如科研人员将实验过程中使用的数据向其他科研人员共享,以便于实验结果的可重现性。
数据共享与数据开放
值得注意的是,数据共享不等价于数据开放,这是因为数据共享是指小范围的使用和利用,而数据开放则是面向全社会和全体公众的开放。开放数据强调的非歧视性和开放授权性,打破了传统数据共享中设定的“共享条件”和“特定共享方”的限制。

二、大数据处理和挖掘的基本计算方法

如掌握多维数据度量方式(1范数、2范数、无穷范数等):

1范数:曼哈顿距离(城市街道距离)
2范数:欧式距离(平方相加开根号)
无穷范式:最大坐标相差距离。

会计算余弦相似度并使用余弦相似度来计算查询词和文档的距离:

图片说明

图片说明


图片说明

会使用user-based或item-based方法计算特定用户对特定商品的喜好程度:

图片说明

三、掌握大数据处理和挖掘的一些基本算法

如特征规约(会使用互信息量和卡方统计量计算特征权重):阿这,这一块属实把我看傻了。

互信息量(Mutual Information):互信息是计算语言学模型分析的常用方法,它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。互信息的定义与交叉熵近似。互信息本来是信息论中的一个概念,用于表示信息之间的关系, 是两个随机变量统计相关性的测度,使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。
图片说明
卡方检验(𝝌^𝟐)其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?)卡方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立的(行话就叫做“原假设”),然后观察实际值(也可以叫做观察值)与理论值(这个理论值是指“如果两者确实独立”的情况下应该有的值)的偏差程度,如果偏差足够小,我们就认为误差是很自然的样本误差,是测量手段不够精确导致或者偶然发生的,两者确确实实是独立的,此时就接受原假设;如果偏差大到一定程度,使得这样的误差不太可能是偶然产生或者测量不精确所致,我们就认为两者实际上是相关的,即否定原假设,而接受备择假设。
图片说明

会根据数据计算信息增益并构建决策树:

信息增益(information gain)表示得知特征𝑋的信息而使得类𝑌的信息的不确定性减少的程度。
增益(gain)英文的顾名思义就是“赚取”。举个例子,学霸A同学和学渣B同学在教室3202学习1个小时,由于A同学基础好,认真专心;而B同学基础不扎实,学习过程中,玩玩手机,聊聊微信;经过1个小时的学习,学霸A同学挂科的不确定性降低了,而学渣B同学挂科的不确定性仍然没有太大变化。这时,我们说A同学的信息增益比B同学大。


这就是为啥有些学霸同学考试前常说“卧槽,什么书都没开始看!”,结果成绩出来后发现少有低于95分,因为仅有的几次学习信息增益很大,将挂科的不确定性降低到几乎为0。


根据以上例子,我们给出信息增益的定义:
信息增益定义:特征𝐴对训练数据集𝐷的信息增益𝑔(𝐷,𝐴),定义为集合𝐷的经验熵𝐻(𝐷)与特征𝐴给定条件下𝐷的经验条件熵𝐻(𝐷|𝐴)只差,即:
𝑔(𝐷,𝐴)=𝐻(𝐷)−𝐻(𝐷|𝐴)

信息增益比定义:特征𝐴对训练数据集𝐷的信息增益比𝑔_𝑅 (𝐷,𝐴),定义为其信息增益𝑔(𝐷,𝐴)与训练数据集𝐷的经验熵𝐻(𝐷)的比值,即:
𝑔_𝑅 (𝐷,𝐴)=𝑔(𝐷,𝐴)/𝐻(𝐷)

决策树生成的经典算法有两个,一个称之为ID3算法,一个称之为C4.5算法.
图片说明


图片说明

【机器学习】贝叶斯分类

其他:

掌握云计算概念和原理

长定义:云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。
短定义:云计算是通过网络按需提供可动态伸缩的廉价计算服务。

了解批量计算

在本地离线进行计算,不需要考虑网络和时效性问题。
避免了数据在网络上的大量传输。只处理本地数据

流式计算(第七章)

动机:数据的时效性
数据的价值随着时间的流逝而降低、事件出现后须尽快处理,发生一件处理一件,而不是缓存一批再处理
流式计算对流式数据实时分析,从而获取有价值的实时信息

传统计算 vs. 流式计算
传统的数据操作,首先将数据采集并存储在DBMS中,然后通过query和DBMS进行交互,得到用户想要的结果。这样的一个流程隐含了两个前提:
Data is old。当对数据做查询的时候,里面数据其实是过去某一个时刻数据的一个snapshot,数据可能已经过期了;
–这样的流程需要人们主动发出query。也就是说用户是主动的,而DBMS系统是被动的。

图计算等概念和含义

概念:研究物件与物件之间的关系,并进行整体的刻画、计算和分析的一种技术。
特征:依赖图、局部更新、迭代计算

掌握大数据安全等概念和原理。

大数据时代,应用场景丰富,信息安全原则以及安全需求的内涵得到展开和引申,数据安全更关注于数据全生命周期的内容安全防护及隐私保护

预祝各位同学在本科最后一门考试中取得理想成绩!

全部评论

相关推荐

点赞 收藏 评论
分享
牛客网
牛客企业服务