【有书共读】数据挖掘导论第2章 2.1-2.2

第2章

数据挖掘的大前提是数据，作为直接被分析的对象也好，或者是作为模型的输入也好，如果数据本身有问题，那么我们的结果一般也会有问题，这就是所谓的“garbage in，garbage out”。本章主要讨论跟数据相关的问题。

2.1 数据类型

数据集：数据对象的集合。

数据对象：记录、点、向量、模式、事件、案例、样本、观测或实体。

属性：用来刻画数据对象的基本特性，也成为变量、特性、字段、特征或维。

举一个例子，现在有一个学校的所有学生的成绩单，那么所有成绩单构成一个数据集，每一个同学作为一个数据对象，拥有ID、年级、性别和平均成绩等属性。

2.1.1 属性与度量

1. 什么是属性

定义2.1 属性（attribute）是对象的性质或特性。

定义2.2 测量标度（measurement scale）是将数值或符号与对象的属性相关联的规则（函数）。

这两个定义有点拗口，简单地说，比如眼球的颜色是数据对象（某个人）的一个属性，具有棕色、黑色、蓝色等值，这些值是属性的一个标度（表示）。

2. 属性类型

这一小节要强调的是，有些属性的值是有具体的物理意义的，比如年龄；相反，有一些属性的值仅仅代表了先后顺序而已，比如ID号。

3. 属性的不同类型

属性的类型有四种：标称（nominal）、序数（ordinal）、区间（interval）和比率（ratio）。具体如表2-2

标称和序数属性统称为分类的（categorical）或定性的（qualitative）属性；相应的区间和比率属性统称定量的（quantitative）或数值的（numeric）属性。

属性也可以进行变换，具体如表2-3

4. 用值的个数描述属性

(1) 离散的（discrete）：属于分类属性，可以有有限或者无限个值。

(2) 连续的（continuous）：取实数值的属性。

5. 非对称属性

只有非零值才是重要的属性。这类属性可以是分类的离散属性，也可以是连续的。

2.1.2 数据集的类型

1. 数据集的一般特性

主要包含维度（dimensionality），稀疏性（sparsity），和分辨率。这几个概念顾名思义就好。

2. 记录数据

许多数据挖掘任务都假定数据集是记录（数据对象）的汇集，每个记录包含固定的数据字段（属性）集。

大家不用太在意记录数据的定义，在这里记录基本是特指一个数据对象。需要注意的是，记录数据有不同的变体，包括事物/购物篮数据，数据矩阵，稀疏数据矩阵（文档-词矩阵）等变体，具体的例子我截了图以方便大家理解。

3. 基于图形的数据

主要有两种类型，一种是图中带有对象之间联系的数据，比如我们把贴吧看做一个对象，那么百度首页上“贴吧”这个超链接就代表了百度首页和贴吧页面之间的联系，这是一个普通的例子，实际碰到的问题一般会更复杂。另一种是图形本身代表着数据对象，这个在我们CV领域中比较常见，比如给你一幅图让你识别，那么此时图本身就是一个数据对象。

4. 有序数据

属性具有涉及时间或空间序联系的数据类型。具体而言，有如下几种：

时序数据 sequential data：也称时间数据 temporal data，这种数据的特点是每个记录数据都包含一个与之相关的时间。

序列数据 sequence data：跟时序数据相似，但是这里只考虑相对位置而非时间，比如DNA序列。

时间序列数据 time series data：这个和时序数据不同的是，每一个记录数据都是一个时间序列，比如，金融数据集可能包含每个股票的时间序列，这就构成了时间序列数据集。

空间数据 spatial data：把时序数据中的时间换成空间，就是空间数据。

2.2 数据质量

数据挖掘使用的数据一开始往往是为了别的用途收集的，或者收集时未明确其目的，因此，数据质量常常存在问题。在这种情况下，为了保证数据挖掘的顺利进行，主要有两种解决办法：第一，是问题的检测和纠正，也叫数据清理/洗；第二，是使用可以容忍低数据质量的算法。

2.2.1 测量和数据收集问题

1. 测量误差和数据收集错误

测量误差（measurement error）是指测量过程中导致的问题。对于连续属性，测量值与实际值的差成为误差（error）。数据收集错误（data collection error）是指诸如遗漏数据对象或属性值，或不当地包含了其他数据对象等错误。

2. 噪声和伪像