假定某同学使用Naive Bayesian（NB）分类模型时_

mrbean

bd

发表于 2017-03-24 00:30:24 回复(1)

WangLichun

主要原因就是由于存在重复的类别之后，破坏了原本的独立性假设。。

发表于 2017-08-12 22:38:00 回复(7)

NewPerson

NB的核心在于它假设向量的所有分量之间是独立的。

在贝叶斯理论系统中，都有一个重要的条件独立性假设：假设所有特征之间相互独立，这样才能将联合概率拆分

发表于 2017-07-31 16:46:00 回复(0)

Rnanprince

@ALL 我来回答一下A：总结就是，对于特征独立型的模型，当存在高度相关特征的时候，由于冗余特征并没有增加数据的信息，但是它却对模型分类的置信度产生了影响，冗余特征产生的效果也会叠加在模型中，从而使得模型效果变差。

发表于 2018-07-06 22:24:46 回复(2)

jiayou可不可以不

有人懂AC为什么都不正确吗？？求解答

发表于 2017-08-01 16:50:06 回复(9)

CC_Andy

感觉这道题还是在考察nb算法的前提条件：特征相互独立。

发表于 2017-08-27 14:43:38 回复(0)

蚊子守护神

朴素贝叶斯是对于给定训练数据集，训练得出联合概率分布，再通过x利用贝叶斯定理求出后验概率最大的输出y。

B:维度重复时，习得的联合概率分布有误，所以精确度会降低。

D:不太明白

发表于 2017-07-24 20:29:21 回复(0)

哼！！

求解答A项！

发表于 2018-07-30 17:01:08 回复(1)

一样的防

贝叶斯的前提假设条件是各个特征都是独立随机分布的，而多重复一列一模一样的特征，就破坏了各个特征之间的独立性，朴素贝叶斯也就不适用所以无法用两列特征相同时所得到的结论来分析问题，与此同时会带来模型效果相比无重复特征的情况下精确度会降低

发表于 2018-04-25 21:35:22 回复(0)

Forrestcloud

精度降低肯定会的；

贝叶斯的核心假设就是特征之间相互独立

发表于 2017-09-08 10:15:40 回复(0)

醉会飞的鱼

A错误是因为朴素贝叶斯要求特征相互独立，所以重复了也被作为两个独立的特征，并不会对其决定作用加强

发表于 2022-03-23 08:40:53 回复(0)

再坚持一下吧唧

这题争议太大了吧，AC其实都是对的

发表于 2025-07-25 10:13:21 回复(0)

找呀找太阳

不太理解上面对于A的解答，如果两个维度的特征重复了，那么在这个维度上计算的条件概率应该是无效的，不管是正负样本。因为新输入的样本在这个重复维度应该是不符合当前的分布的，因此这个维度计算的后验概率应该基本上没有价值。所以这个维度本来的作用就被减弱了。为什么答案里有人在说这个和独立分布有关啊，不理解。

发表于 2024-04-25 21:22:25 回复(1)

牛客882604143号

个人理解，欢迎探讨

A：假设把一维到重复扩展到二维 x ---> y=x;

x这个特征的决定能力不变吧。（增加了一个冗余的维度，其实相当于不存在 y 这个维度）

如果分析正确的话，那么答案就是CD

发表于 2021-09-16 21:55:58 回复(0)

Alex_ching

联合概率分布要求瞒住独立同分布

发表于 2020-07-14 14:26:48 回复(0)

江湖再见！

有没有大神可以解释下A选项，说重复的特征对模型决定作用加强有什么不对的吗

发表于 2020-06-11 09:49:23 回复(0)

门头沟吴彦祖

A不理解，我选了ABD。因为重复样本出现，是的，是会导致模型的误差加大，置信度虚高。可是！！！在这个效果不佳的模型里面，这个重复特征的作用被加强了吧？！求解

发表于 2019-03-12 14:23:45 回复(1)

Ruby1055

如果重复一个维度应该会加强其权重，导致学习结果变差。求解为什么A不对？

发表于 2018-10-16 00:05:06 回复(0)

YukiRain

题上说的是“假定某同学使用Naive Bayesian（NB）分类模型时，不小心将训练数据的两个维度搞重复了”，一个字也没有提这个这个童鞋研究问题的特征到底有没有独立性，感觉这个题就是在猜出题人的意思。如果问题本身就没有独立性，那很难讲到底performance会上升还是下降。

再者，NB的预测过程是\log P(Y|X) \approx \sum {\log P(X_i | Y)} +\log P(Y)，然后比较所有Y取值下的概率大小，如果所有特征都被重复一次的话，相当于正比号右边的东西整体乘2，应该是不影响最终的预测结果的。如果这里我的思路错了的话求提示哪里错了。。。

发表于 2018-08-14 13:00:24 回复(0)

雾z~霭

作者：雾z~霭
链接：https://www.nowcoder.com/questionTerminal/f25c433b9b0d42659d2cf3b39a8367ae?toCommentId=1466095
来源：牛客网
效果变差我能够理解，因为破坏了条件独立的假设；但是我觉得确实会加强这个特征的作用，我是这么理解的，特征重复，将导致该特征（假设正类）所属的先验概率增加（eg:假设原来2个样本中一个正样本，一个负样本，那么P（y=1）由1/2变为2/3，且条件概率也会增加（不好打公式）），这样来说，将导致相乘后的后验概率增大啊，当然使样本更加偏向于分为正类，那不是起到了加强作用吗？请指教

发表于 2018-07-06 22:51:00 回复(1)

假定某同学使用Naive Bayesian（NB）分类模型时

问题信息

热门推荐

相关试题