在文本分类中使用朴素贝叶斯分类器时,如果某些词汇在大部分文档中都频繁出现(比如停用词或常见术语),那么它们会出现在很多类别的文档中,因此对类别的区分能力很弱。
影响:
这些词汇的 P(词∣类别)P(词∣类别) 在各个类别中可能相近,使得它们在计算后验概率时贡献很小。
但它们会稀释其他特征词对分类决策的影响,虽然朴素贝叶斯通过条件概率加权,但高频通用词汇仍然可能引入噪声。
如果这类词很多,可能会降低模型性能,因为模型难以依赖真正有区分度的词汇。
所以,常见做法是移除停用词,或者在 TF-IDF 加权中降低此类高频词的权重。