Day49:常用聚类算法详解与实例
在上一节中,我们介绍了决策树的原理和实现。接下来,我们将进入聚类算法的领域,这是一种无监督学习方式。聚类算法用于将数据集中的样本划分为不同的组,使得同一组内的样本相似度较高,不同组之间的样本相似度较低,这类算法是从数据特征中学习知识,不需要标签进行指导。我们主要介绍三种常用的聚类算法。
1. K-means聚类算法:
- 算法原理:K-means聚类算法是一种基于距离的聚类算法。它将样本划分为K个簇,每个簇由一个中心点表示。算法通过迭代优化的方式,使得每个样本到所属簇的中心点距离最小。具体步骤如下:
- 随机初始化K个聚类中心点。
- 将每个样本分配到距离最近的聚类中心点所属的簇。
- 更新每个簇的中心点为该簇所有样本的均值。
- 重复步骤2和步骤3,直到聚类中心点不再发生变化或达到最大迭代次数。
- 优点:简单、高效,适用于大规模数据集;易于解释和理解。
- 缺点:对初始聚类中心的选择敏感;对噪声和异常值敏感;无法处理非球形簇或大小差异较大的簇。
- 适用条件:适用于簇具有凸性和相似大小的数据集。
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
# 创建K-means聚类器对象
kmeans = KMeans(n_clusters=3, random_state=42)
# 使用训练数据进行聚类
kmeans.fit(X_train)
# 获取聚类结果
labels = kmeans.labels_
# 绘制聚类结果图
plt.scatter(X_train[:, 0], X_train[:, 1], c=labels)
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], marker='x', color='r')
plt.show()
2. 层次聚类算法(Hierarchical Clustering):
- 算法原理:层次聚类算法通过逐步合并或分割样本来构建聚类树(树状的聚类结构),从而形成层次化的聚类结果。具体步骤如下:
- 将每个样本视为一个初始簇。
- 计算簇与簇之间的相似度(如欧氏距离或相关系数)。
- 选择相似度
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
大模型-AI小册 文章被收录于专栏
1. AI爱好者,爱搞事的 2. 想要掌握第二门语言的Javaer或者golanger 3. 决定考计算机领域研究生,给实验室搬砖的uu,强烈建议你花时间学完这个,后续搬砖比较猛 4. 任何对编程感兴趣的,且愿意掌握一门技能的人