首页 > 试题广场 >

什么是DBSCAN

简单总结一下常见的聚类方法:
1)基于分层的聚类方法
这种方法一般是有两种:自下而上、自上而下。
2)基于划分的方法(k-means)
一般步骤:
1.首先选取k个点
2.在数据集中计算每个点到这k个点的距离,将每个点划分为离它最近的聚类中心
3.将划分好的聚类中心重新计算每个簇的质心,再次执行上述过程,直至聚类中心不再发生变化或者变化小于给定的阈值
优点:对处理理⼤大数据集,该算法保持可伸缩性和⾼高效率
缺点:依赖于初始值k、只能发现类球形状的聚类、对异常值很敏感
3)基于密度的方法
主要思想:它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在有“噪声”的数据中发现任意形状的聚类。
主要步骤:
1.设置两个参数:半径以及半径内对象的个数
2.找到一个初始核心对象A(以这个对象为圆心以参数半径为圆内对象的个数大于或者等于参数对象的个数),将A作为初始簇,将这个核心对象内的点暂时标记为边缘点
3.在边缘点中随机寻找一个,合并核心对象密度可达的点
4.循环上述步骤,如果还有Points未处理理,再次新产⽣生一个类别来重新启动这个算法过程。遍历所有数据,如果有点既不是边缘点也不是中心点,将其标记为噪⾳音。

特点:
1.每个簇中至少含有一个核心对象
2.非核心对象可以构成簇的边界
3.包含过少对象的簇被认为为噪声
优点:只需要设置两个参数(半径以及半径内对象的个数)、可以发现任意形状的簇、无需确认簇的个数、对异常值不敏感
发表于 2019-06-07 13:31:25 回复(0)
dbscan基于密度的空间聚类 kmeans继续最小二乘误差的空间聚类
发表于 2019-09-27 18:55:18 回复(0)