【有书共读】数据挖掘导论第2章 2.3

第2章 2.3

在讨论完数据的基本概念，数据可能存在的问题以及解决方法，本小节讨论数据预处理的内容。

2.3.1 聚集（aggregation）

聚集是将两个或多个对象合并成单个对象。举例，将各个分公司中的各种商品的销售额汇总，得到各个分公司的销售总额，这里就相当于在对每一个公司将所有商品销售额进行了加和。

2.3.2 抽样

抽样是一种选择数据对象子集进行分析的常用方法。统计学上的抽样和数据挖掘上的抽样虽然动机不同，但是本质是相似的，前者是因为得到整个数据集（样本空间）的费用太高、太费时间，而后者是因为处理数据集中的所有数据的费用太高、太费时间。

用白话来说，就是如果我们的数据量太大，一般的数据挖掘或者机器学习模型的计算时间可能会太长以至于我们无法接受，这时候就需要减少数据量，在有限的时间内达到一定的效果。

1. 抽样方法

最简单的抽样技术是单随机抽样（simple random sampling），定义是选取任何特定项的概率相等。这种随机抽样有两种变形：

(1) 无放回抽样

(2) 有放回抽样

当总体由不同类型的对象组成，并且每种类型的对象数量差别很大时，需要使用分层抽样（stratified sampling）技术。简单地说，考虑一个及其不平衡的单二元属性数据集，正类有99990个样本，负类有10个样本，那么使用单随机抽样等概率抽取样本，提取出来的子集可能会不包含负类。如果这类问题的召回率非常重要的话，那么不提取负样本得到的数据挖掘模型抑或是机器学习模型，都会存在很大的问题。

2. 渐进抽样（progressive sampling）

合适的样本容量很难确定，因此有时需要使用自适应（adaptive）或渐进抽样方法。这一类方法的核心步骤是，从一个小样本开始，然后增加样本容量直至得到足够容量的样本。

举例，如果我们根据已有的数据集来学习一个预测模型。使用渐进抽样技术的步骤是，逐渐增加样本容量，直到在某一点我们关心的指标（比如准确率，召回率，F1 score）的增加趋于稳定，则在稳定点停止增加样本容量。这个方法，其实跟K-means聚类中K值的选择比较类似。

2.3.3 维规约（降维）

每个数据对象是包含一定数量的特征的。如果属性、特征的数量很大，同样会给数据挖掘任务带来很大的困难。维规约（dimension reduction）就是降低数据对象属性的数量。如果说抽样方法是从数据量的问题入手，从纵向上解决问题，那么维规约则是从横向上减少模型的运算量。

1. 维灾难（维度灾难）

维灾难是指这样的现象：随着数据维度（特征，属性）的增加，很多数据分析/挖掘任务会变得非常困难。不仅是运算，大量的特征意味着数据所占的空间中越来越稀疏。这样，

(1) 对于分类，这意味着可能没有足够的数据对象来创建模型，将所有的对象可靠地指派到一个类。

(2) 对于聚类，计算距离会有很大的困难，因为稀疏导致的数据特征不匹配。

2. 维规约的线性代数技术

属性多带来的问题，自然是从属性的数量，也就是维度来解决问题。举一个简单的例子，在二维空间中的直线，实际上可以投影到一维空间。同样，三维空间的一个平面（甚至是曲面）可以投影到二维平面上。因此，高维空间中，如果某些维度是有很强的相关关系的，则可以通过某种手段将高维空间投影到低维空间，这样维数就能降低了，也就是属性/特征数量变少了，数据挖掘任务则可以更好的执行。

从线性代数的角度出发，我们有以下两种方法：

(1) 主成分分析（Principal Component Analysis，PCA）

(2) 奇异值分解（Singular Value Decomposition，SVD）

这两种方法在这不展开，有兴趣的同学可以去具体查一下两者的数学、算法和异同。不过值得说明的一点是，线性代数方法，归根结底处理的是线、平面和高维平面。任何高维空间的向量都是对应空间的正交基的线性组合，比如二维平面的向量可以用（1, 0）和（0, 1）这两个向量的线性组合表达，对应的系数就是其终点的坐标，这个道理在高维空间中也是类似的。当我们感兴趣的问题，涉及到一个曲面时，那么线性代数的方法就很难适用了。解决高维非平面的问题，可以用核（kernel）方法，将曲面通过某种非线性映射到一个平面，我们之前的线性方法又可以继续使用了，比如带核的PCA（KPCA）和SVM-RBF。

2.3.4 特征子集选择

跟抽样方法的目的类似，特征子集选择，是从现有的特征/属性中选取一个特征的子集，数量比原来少，但是却有很好的代表性。我们特别要注意去除冗余特征和不相关特征。举例，商店里销售数据中，如果给了销售额和销售数量，那么销售单价就是冗余特征；在学生数据中，每个人的ID号（或者学号）基本上对于预测学生的成绩来说，用处不大，所以是不相关特征。

以下介绍几个特征子集的选择方法：

1. 嵌入方法（embedded approach）

顾名思义，就是特征选择作为数据挖掘算法的一部分嵌入在算法里的，算法本身决定使用哪些属性和忽略哪些属性，比如决策树。

2. 过滤方法（filter approach）

定义是使用某种独立于数据挖掘任务的方法，在数据挖掘算法运行前进行特征选择，再将选好的特征作为数据挖掘模型的输入，比较经典的方法有卡方检验。

3. 包装方法（wrapper approach）

此类方法将数据挖掘算法当做黑盒，通过一定策略枚举出最佳子集。

以下进一步讨论过滤方法和包装方法。

1. 特征子集选择体系结构

具体流程可以参考图2-11。

2. 特征加权

简单地说，只要是模型计算中涉及到特征的线性或非线性组合，相应的特征对应的项会有一定的权值，改变权值的大小相当于改变特征在模型中的重要性，具体如何修改，需要针对具体的方法来设定。

2.3.5 特征创建

我们可以利用以后的属性集创建新的属性集，从而更有效地捕获数据集中的重要信息。比如，当一个分类问题跟材料的密度高度相关，但是我们数据集中只有质量和体积的数据，那么我们可以创建新的特征，密度=质量/体积。具体而言，主要有三种方法：特征提取、映射数据到新的空间和特征构造。

1. 特征提取（feature extraction）

不同的领域有不同的方法，比如计算视觉中常用卷积神经网（CNN）提取图像的高级语义特征，自然语言处理问题中常用循环神经网（RNN）提取文本的高级语义特征。

2. 映射数据到新的空间

举例，傅里叶变换，将时域映射到频域。

3. 特征构造

比如我们上文提到的，用质量和体积得到密度的例子。

2.3.6 离散化（discretizaition）与二元化（binarization）

很多数据挖掘算法要求数据数据是离散或者二元的形式，那么将连续属性变换为分类属性的操作叫做离散化，将连续和离散的属性变换成一个或多个二元属性的过程叫二元化。

1. 二元化

本质上就是设一个阈值，然后区分两类数据。值得注意的是将属性二元化的方法，一种是利用二进制计数的自然顺序码，每一位代表了一个二元属性，此属性本身可能没什么含义，仅仅作为编码中的一位数而已；另一种则是独热编码（one-hot encoding），有多少种类别就有几位，每一种类别对应某一位上的一个1，具体可参考表2-5和表2-6。