Day49:常用聚类算法详解与实例

alt

在上一节中,我们介绍了决策树的原理和实现。接下来,我们将进入聚类算法的领域,这是一种无监督学习方式。聚类算法用于将数据集中的样本划分为不同的组,使得同一组内的样本相似度较高,不同组之间的样本相似度较低,这类算法是从数据特征中学习知识,不需要标签进行指导。我们主要介绍三种常用的聚类算法。

1. K-means聚类算法:

  • 算法原理:K-means聚类算法是一种基于距离的聚类算法。它将样本划分为K个簇,每个簇由一个中心点表示。算法通过迭代优化的方式,使得每个样本到所属簇的中心点距离最小。具体步骤如下:
    1. 随机初始化K个聚类中心点。
    2. 将每个样本分配到距离最近的聚类中心点所属的簇。
    3. 更新每个簇的中心点为该簇所有样本的均值。
    4. 重复步骤2和步骤3,直到聚类中心点不再发生变化或达到最大迭代次数。
  • 优点:简单、高效,适用于大规模数据集;易于解释和理解。
  • 缺点:对初始聚类中心的选择敏感;对噪声和异常值敏感;无法处理非球形簇或大小差异较大的簇。
  • 适用条件:适用于簇具有凸性和相似大小的数据集。
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# 创建K-means聚类器对象
kmeans = KMeans(n_clusters=3, random_state=42)

# 使用训练数据进行聚类
kmeans.fit(X_train)

# 获取聚类结果
labels = kmeans.labels_

# 绘制聚类结果图
plt.scatter(X_train[:, 0], X_train[:, 1], c=labels)
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], marker='x', color='r')
plt.show()

1alt

2. 层次聚类算法(Hierarchical Clustering):

  • 算法原理:层次聚类算法通过逐步合并或分割样本来构建聚类树(树状的聚类结构),从而形成层次化的聚类结果。具体步骤如下:
    1. 将每个样本视为一个初始簇。
    2. 计算簇与簇之间的相似度(如欧氏距离或相关系数)。
    3. 选择相似度

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

大模型-AI小册 文章被收录于专栏

1. AI爱好者,爱搞事的 2. 想要掌握第二门语言的Javaer或者golanger 3. 决定考计算机领域研究生,给实验室搬砖的uu,强烈建议你花时间学完这个,后续搬砖比较猛 4. 任何对编程感兴趣的,且愿意掌握一门技能的人

全部评论
好像看出来了区别
点赞
送花
回复 分享
发布于 2023-07-14 15:33 上海

相关推荐

点赞 评论 收藏
分享
头像
04-29 10:53
已编辑
东北大学 自动化类
点赞 评论 收藏
分享
1 1 评论
分享
牛客网
牛客企业服务