2019-02-04 01:54 已编辑算法工程师

关注

【有书共读】数据挖掘导论第3章 3.1-3.2

第3章探索数据

第2章讨论了只是发现过程中重要的高层数据问题，本章是数据探索导论，对数据进行初步研究，以便更好地理解它的特殊性质。数据探索有助于选择合适的数据预处理和数据分析技术。

本章的三个主题：汇***计，可视化和联机分析处理（OLAP）。我的读书笔记也会分成三个部分，分别讨论学习这三个主题。

3.1 鸢尾花（Iris）数据集

这个数据集想必大家有所耳闻甚至是使用过，在这里只简单介绍。该数据集可以从加州大学欧文分校（UCI）的机器学习库中得到。鸢尾花数据集包含150中鸢尾花的信息，每50种取自三个鸢尾花之一：Setosa、Versicolor和Virginia。每个花的特征用下面5个属性描述。

(1) 萼片长度（厘米）。

(2) 萼片宽度（厘米）。

(3) 花瓣长度（厘米）。

(4) 花瓣宽度（厘米）。

(5) 类（Setosa，Versicolour，Virginia）。

以下是截自本书的一个图

3.2 汇***计

汇***计（summary statics）是量化的（如均值和标准差），用单个数或数的小集合捕获可能很大的值集的各种特征。

3.2.1 频率和众数

频率的定义为

frequency = 具有属性值x的对象数/数据集合中的对象数

分类属性的众数（mode）是具有最高频率的值。

在连续数据中，一般不定义众数。另外，如果使用唯一的值表示遗漏值，则该值常常表现为众数。

3.2.2 百分位数（percentile）

百分位数一般用于有序数据。具体地说，给定一个有序的或连续的属性x和0与100之间的数p，第p个百分位数x_p是一个x值，使得x的p%的观测值小于x_p。

3.2.3 位置度量：均值和中位数

这两个比较常见，这里不做详细介绍。

3.2.4 散步度量：极差和方差

极差（range）的定义为

range(x) = max(x) – min(x)

方差（variance）的定义如下：

$variance\left ( x \right )=s_{x}^{2}=\frac{1}{m-1}\sum_{i=1}^{m}\left ( x_{i} - \overline{x} \right )^{2}$

其中Sx是标准差。

方差的计算，决定了它对离群值特别敏感。除了方差之外，还有其他三种更为稳健的估计，分别为绝对平均误差（absolute average deviation，AAD）、中位数绝对偏差（median absolute deviation，MAD）和四分位数极差（interquartile range，IRQ），分别如下

$AAD\left ( x \right )=\frac{1}{m}\sum_{i=1}^{m} \left|x_{i} - \overline{x} \right |$

$MAD\left ( x \right )=median\left (\left|x_{1} - \overline{x} \right |,\cdots ,\left|x_{m} - \overline{x} \right | \right )$

$interquartile\ range\left ( x \right )=x_{75\%}-x_{25\%}$

3.2.5 多元汇***计

对于具有连续变量的数据，数据的散布更多地用协方差矩阵（covariance matrix）S表示，其中，S的第ij个元素sij是数据的第i个和第j个属性的协方差，具体计算如下

$covariance\left ( x_{i},x_{j} \right )=\frac{1}{m-1}\sum_{k=1}^{m}\left ( x_{ki}-\overline{x_{i}} \right )\left ( x_{kj}-\overline{x_{j}} \right )$

相关矩阵（correlation matrix）R的第ij个元素是数据的第i个和第j个属性之间的相关性，因此，其定义为

$r_{ij}=correlation\left ( x_{i},x_{j} \right )=\frac{covariance\left ( x_{i},x_{j} \right )}{s_{i}s_{j}}$

其中，s_i和s_j分别是x_i和x_j的方差，R的对角线上的元素为1，其他都在-1到1之间。

3.2.6 汇总数据的其他方法

还有其他的汇***计方法，比如值的倾斜度（skewness）度量值对称地分布在均值附近的程度。另外还有一些其他数据特征，很难定量的度量。这时候，我们可以借助可视化的方法，来直观地去观察数据特征。

全部评论

推荐最新楼层

算法工程师

大佬的帖子都要赞

点赞回复

发布于 2019-02-04 02:14

小赵冲冲冲！

快手_数据分析师

我竟然不是首赞！！哭泣(´;︵;`)

点赞回复

发布于 2019-02-04 10:37

小红书

校招火热招聘中

官网直投

04-24 16:26

已编辑

门头沟学院计算机类

大二字节二进宫!谈谈我的心路历程

我三月从走出字节大楼的那一刻，想着我终于不用上那个吊毛班了，终于不用在百京那个阴暗狭小的出租屋苟活了，终于可以回学校狠狠体验生活了 就tm一个字 爽!回学校也狠狠享受了一下，去大理和贵阳玩了一圈，但说实话，回学校的生活并没有想象中的快乐，其实可以一句话总结:有苦难的对比才会体验到幸福。天天没有压力没有焦虑的玩听着确实很爽，但实际体验之后发现真的好无聊，我适应不了一直不做事纯玩的生活，还是想做点事情，忙里偷得的闲才会让我有满足感。所以懂车帝的offer就跟着来了，不过没想到又是在百京，靠，但是这次不会住出租屋了，我发现公司就是个宽敞明亮的大house🤠期待我的下一段旅程26届有想交流的朋友们可...

点赞评论收藏

转发

04-21 01:16

本溪钢铁公司职工工学院临床医学类

中厂实习vs准备秋招

uu们，暑期实习被挂麻了，想问下是现在开始准备准备秋招还是找个中厂实习，搞一个实习经历，再去秋招。bg双九

牛客帮帮团来啦！有问必答

点赞评论收藏

转发

04-20 18:13

合肥工业大学计算机类

终于结束了

昨天同时收到两个意向。最后决定去淘天了这两个月终于可以告一段落了后续更新一些面经和时间线。还有很多录音没复盘hhhh

点赞评论收藏

转发

牛客848889590号

03-29 13:51

已编辑

Debuff叠满了

#简历被挂麻了，求建议# 二本+gap1年+初创

简历被挂麻了，求建议

点赞评论收藏

转发

牛客873446416号

04-19 15:28

西安科技大学计算机类

java今年好找工作吗

点赞评论收藏

转发

1 5 评论

招聘动态

联易融2024届营销管培生校园招聘

小红书

24届春招&25届实习生招聘

全站热榜

正在热议

# 牛客帮帮团来啦！有问必答 #

316472次浏览 6800人参与

# 机械制造薪资爆料 #

247797次浏览 2987人参与

# 非技术岗薪资爆料 #

3104次浏览 87人参与

# 华为求职进展汇总 #

427239次浏览 4286人参与

# 第一次面试 #

11575次浏览 174人参与

# 除了offer，现在你还缺点啥？ #

1504次浏览 37人参与

# 找工作，你会甘心进小厂还是猛冲大厂 #

21098次浏览 204人参与

# 应届生应该先就业还是先择业 #

10037次浏览 102人参与

# 来聊聊机械薪资天花板是哪家 #

15477次浏览 118人参与

# 如果校招重来我最想改变的是 #

68055次浏览 1350人参与

# 面试被问第一学历差时该怎么回答 #

13105次浏览 147人参与

# 为什么那么多公司毁约 #

31600次浏览 266人参与

# 毕业租房也有小确幸 #

18747次浏览 1205人参与

# 机械人的薪资开到多少，才适合去？ #

39811次浏览 238人参与

# 通信硬件2024笔试面试经验 #

76519次浏览 855人参与

# 百度工作体验 #

18683次浏览 204人参与

# 实习工作，你找得还顺利吗？ #

4357次浏览 66人参与

# 通信硬件人笔面经互助 #

53757次浏览 1233人参与

# 租房前辈的忠告 #

19344次浏览 1559人参与

# 晒一晒我的offer #

2727191次浏览 49207人参与

牛客网
牛客企业服务