【有书共读】数据挖掘导论 第3章 3.1-3.2
第3章 探索数据
第2章讨论了只是发现过程中重要的高层数据问题,本章是数据探索导论,对数据进行初步研究,以便更好地理解它的特殊性质。数据探索有助于选择合适的数据预处理和数据分析技术。
本章的三个主题:汇***计,可视化和联机分析处理(OLAP)。我的读书笔记也会分成三个部分,分别讨论学习这三个主题。
3.1 鸢尾花(Iris)数据集
这个数据集想必大家有所耳闻甚至是使用过,在这里只简单介绍。该数据集可以从加州大学欧文分校(UCI)的机器学习库中得到。鸢尾花数据集包含150中鸢尾花的信息,每50种取自三个鸢尾花之一:Setosa、Versicolor和Virginia。每个花的特征用下面5个属性描述。
(1) 萼片长度(厘米)。
(2) 萼片宽度(厘米)。
(3) 花瓣长度(厘米)。
(4) 花瓣宽度(厘米)。
(5) 类(Setosa,Versicolour,Virginia)。
以下是截自本书的一个图3.2 汇***计
汇***计(summary statics)是量化的(如均值和标准差),用单个数或数的小集合捕获可能很大的值集的各种特征。
3.2.1 频率和众数
频率的定义为
frequency = 具有属性值x的对象数/数据集合中的对象数
分类属性的众数(mode)是具有最高频率的值。
在连续数据中,一般不定义众数。另外,如果使用唯一的值表示遗漏值,则该值常常表现为众数。
3.2.2 百分位数(percentile)
百分位数一般用于有序数据。具体地说,给定一个有序的或连续的属性x和0与100之间的数p,第p个百分位数x_p是一个x值,使得x的p%的观测值小于x_p。
3.2.3 位置度量:均值和中位数
这两个比较常见,这里不做详细介绍。
3.2.4 散步度量:极差和方差
极差(range)的定义为
range(x) = max(x) – min(x)
方差(variance)的定义如下:
其中Sx是标准差。
方差的计算,决定了它对离群值特别敏感。除了方差之外,还有其他三种更为稳健的估计,分别为绝对平均误差(absolute average deviation,AAD)、中位数绝对偏差(median absolute deviation,MAD)和四分位数极差(interquartile range,IRQ),分别如下
3.2.5 多元汇***计
对于具有连续变量的数据,数据的散布更多地用协方差矩阵(covariance matrix)S表示,其中,S的第ij个元素sij是数据的第i个和第j个属性的协方差,具体计算如下
相关矩阵(correlation matrix)R的第ij个元素是数据的第i个和第j个属性之间的相关性,因此,其定义为
其中,s_i和s_j分别是x_i和x_j的方差,R的对角线上的元素为1,其他都在-1到1之间。
3.2.6 汇总数据的其他方法
还有其他的汇***计方法,比如值的倾斜度(skewness)度量值对称地分布在均值附近的程度。另外还有一些其他数据特征,很难定量的度量。这时候,我们可以借助可视化的方法,来直观地去观察数据特征。