【有书共读】数据挖掘导论 第3章 3.1-3.2

第3章 探索数据


第2章讨论了只是发现过程中重要的高层数据问题,本章是数据探索导论,对数据进行初步研究,以便更好地理解它的特殊性质。数据探索有助于选择合适的数据预处理和数据分析技术。

本章的三个主题:汇***计可视化联机分析处理(OLAP)。我的读书笔记也会分成三个部分,分别讨论学习这三个主题。


3.1 鸢尾花(Iris)数据集

这个数据集想必大家有所耳闻甚至是使用过,在这里只简单介绍。该数据集可以从加州大学欧文分校(UCI)的机器学习库中得到。鸢尾花数据集包含150中鸢尾花的信息,每50种取自三个鸢尾花之一:Setosa、Versicolor和Virginia。每个花的特征用下面5个属性描述。

(1) 萼片长度(厘米)。

(2) 萼片宽度(厘米)。

(3) 花瓣长度(厘米)。

(4) 花瓣宽度(厘米)。

(5) 类(Setosa,Versicolour,Virginia)。

以下是截自本书的一个图


3.2 汇***计

汇***计(summary statics)是量化的(如均值和标准差),用单个数或数的小集合捕获可能很大的值集的各种特征。


3.2.1 频率和众数

频率的定义为

frequency = 具有属性值x的对象数/数据集合中的对象数

分类属性的众数(mode)是具有最高频率的值。

在连续数据中,一般不定义众数。另外,如果使用唯一的值表示遗漏值,则该值常常表现为众数。


3.2.2 百分位数(percentile)

百分位数一般用于有序数据。具体地说,给定一个有序的或连续的属性x和0与100之间的数p,第p个百分位数x_p是一个x值,使得x的p%的观测值小于x_p。


3.2.3 位置度量:均值和中位数

这两个比较常见,这里不做详细介绍。


3.2.4 散步度量:极差和方差

极差(range)的定义为

range(x) = max(x) – min(x)

方差(variance)的定义如下:


其中Sx是标准差。

方差的计算,决定了它对离群值特别敏感。除了方差之外,还有其他三种更为稳健的估计,分别为绝对平均误差(absolute average deviation,AAD)中位数绝对偏差(median absolute deviation,MAD)四分位数极差(interquartile range,IRQ),分别如下





3.2.5 多元汇***计

对于具有连续变量的数据,数据的散布更多地用协方差矩阵(covariance matrix)S表示,其中,S的第ij个元素sij是数据的第i个和第j个属性的协方差,具体计算如下

相关矩阵(correlation matrix)R的第ij个元素是数据的第i个和第j个属性之间的相关性,因此,其定义为

其中,s_i和s_j分别是x_i和x_j的方差,R的对角线上的元素为1,其他都在-1到1之间。


3.2.6 汇总数据的其他方法

还有其他的汇***计方法,比如值的倾斜度(skewness)度量值对称地分布在均值附近的程度。另外还有一些其他数据特征,很难定量的度量。这时候,我们可以借助可视化的方法,来直观地去观察数据特征。

#数据挖掘#
全部评论
大佬的帖子都要赞
点赞 回复
分享
发布于 2019-02-04 02:14
我竟然不是首赞!!哭泣(´;︵;`)
点赞 回复
分享
发布于 2019-02-04 10:37
小红书
校招火热招聘中
官网直投

相关推荐

1 5 评论
分享
牛客网
牛客企业服务