首页 > 试题广场 >

在文本分类问题中,你选择使用朴素贝叶斯分类器。你注意到一些词

[单选题]
在文本分类问题中,你选择使用朴素贝叶斯分类器。你注意到一些词汇在大部分文档中都非常频繁出现,这最有可能会对模型的性能产生什么影响?
  • 会提高模型的性能
  • 会降低模型的性能
  • 对模型的性能没有影响
  • 取决于这些词汇的语义内容

在文本分类中使用朴素贝叶斯分类器时,如果某些词汇在大部分文档中都频繁出现(比如停用词或常见术语),那么它们会出现在很多类别的文档中,因此对类别的区分能力很弱


影响

  1. 这些词汇的 P(词∣类别)P(类别) 在各个类别中可能相近,使得它们在计算后验概率时贡献很小

  2. 但它们会稀释其他特征词对分类决策的影响,虽然朴素贝叶斯通过条件概率加权,但高频通用词汇仍然可能引入噪声。

  3. 如果这类词很多,可能会降低模型性能,因为模型难以依赖真正有区分度的词汇。

所以,常见做法是移除停用词,或者在 TF-IDF 加权中降低此类高频词的权重。

发表于 2026-01-19 16:59:41 回复(0)