K-均值(K-means)算法的主要影响因素包括:
A 样本输入顺序 ✅
K-均值对样本顺序敏感吗?严格说,经典批量K-均值(每轮用全部数据更新中心)的结果与输入顺序无关;但如果在线版本(逐个样本更新)或某些实现中数据读取顺序可能导致不同结果。不过一般认为,标准K-means与顺序无关。但有的考题会认为样本顺序有微弱影响(如初始化阶段如果数据顺序影响初始中心选取),但这不是主要因素。不过有的教材将其列为影响因素之一。
B 模式相似性测度 ✅
通常是欧氏距离,若改用其他距离(如曼哈顿距离)会影响聚类形状和结果。
C 聚类准则 ✅
K-均值隐含的准则是最小化类内误差平方和(SSE),但准则不同(如使用类内平均距离)会影响算法。
D 初始类中心的选取 ✅
这是最主要的影响因素之一,不同初始中心容易导致不同的局部最优解。
若多选题,常见教材强调 B、C、D 为主要因素,A 有时不算(因为标准实现顺序不影响),但若出题较广,可能全选。
按照常见考题(如模式识别教材),主要因素包括:相似性测度、聚类准则、初始类中心选取,样本输入顺序一般不作为主要因素。因此答案是 B、C、D。