首页 > 试题广场 >

请计算年龄,地区,学历,收入中对用户是否使用调查产品信息增益

[单选题]
如下表是用户是否使用某产品的调查结果() 
UID 年龄 地区 学历 收入 用户是否使用调查产品
1 北方 博士
2 北方 本科
3 南方 本科
4 北方 研究生

请计算年龄,地区,学历,收入中对用户是否使用调查产品信息增益最大的属性(Log23≈0.63)
  • 年龄
  • 地区
  • 学历
  • 收入
推荐
答案:C
不用算一眼就能看出来,所有本科学历都不使用调查产品,所有非本科学历都使用了调查产品。这种可以确定的划分导致信息熵为0,信息增益最大
编辑于 2015-01-30 11:08:39 回复(3)
  • 这里用到决策树的基本知识。参考:http://www.cnblogs.com/ranjiewen/p/7473938.html
  • 信息增益就是没有选取特征进行分类前的信息熵 - 选定某一特征进行分类后的信息熵
  • 就是减小了信息的不确定性。
  • 本题:按学历分,博士和研究所都一定使用产品;本科一定不使用产品;信息的不确定因素减少为0;信息增益肯定最大
编辑于 2017-09-21 23:02:08 回复(0)
C,最大信息熵可以求出最大属性。
发表于 2015-07-08 17:12:52 回复(0)


所以选学历
发表于 2017-10-17 18:50:01 回复(3)
@若如初见 分析的很对。信息增益通俗讲就是指区分度。如果对于一个属性,其结果都是等概率出现的,即信息熵为1,信息增益为0,那么这个属性就没有任何区分度,无实际意义。就像本题中年龄一样,年龄高的的人是否接受调查的人都是1/2,年龄低的人是否接受调查的人也分别占1/2,那么年龄属性没有任何实际意义,有没有都一样了。不得不说Shannon发明的这个信息熵太强大了。
编辑于 2015-05-01 13:00:17 回复(0)
发表于 2018-05-08 20:46:48 回复(3)
虽然这题比较简单,可以看出来,但是自己还是写了一下过程,加深对信息熵、信息增益的理解。

发表于 2022-01-01 16:26:47 回复(0)
发表于 2017-04-14 16:47:00 回复(4)
log2(3) = 1.58
发表于 2016-08-27 08:04:43 回复(0)
没有算,实际上需要选择分类能力最强的特征,其中学历可以最好的将用户是否使用调查产品区分开,所以直接选学历。

发表于 2018-07-10 19:24:29 回复(0)

既然这是一个选择题,没必要在那儿算个半天。信息熵的一个最大最大的弊端就是偏向特征分类多的特征,学历有三分类,所以直接一眼看过去就选出答案了。

发表于 2019-03-12 11:24:26 回复(0)
信息增益指区分度,不算也能看出来
发表于 2018-08-05 10:32:26 回复(0)
推荐一个链接吧,这个上边讲得比较清楚,有具体的例子http://blog.csdn.net/zhurui_idea/article/details/54646932
发表于 2017-09-02 21:34:09 回复(0)

原则是按属性分类后不确定度最小。

【年龄】[]中数字代表记录ID
低:[1,是],[3,否]
高:[2,否],[4,是]
【地区】
南方:[3,否]
北方:[1,是], [2,否],[4,是]
【学历】
本科: [2,否], [3,否]
研究生:[4,是]
博士: [1,是]
【收入】
低: [1,是]
中:[2,否], [4,是]
高: [3,否]
直观分析可见按学历划分后数据集不确定性最小。
发表于 2017-03-06 19:29:54 回复(0)
信息增益g(D|A)= H(D)-H(D|A) ,表示由于属性A,使得分类不确定性减小的程度(即信息增益越大越好),其中 H 表示熵;H(D)= sum(-p*logp)。
对于本题中的学历,可以计算出H(D|学历)=0,则   g(D|A)最大,因此选择c
发表于 2016-05-30 16:39:59 回复(0)
读图啊,我是没有用计算,看看没一列对是否用该产品是否有影响,如果每一列对应的是否用该产品,既有是也有否,那么该条件对我的评判带来的收益也就最小,也就是跟该条件只没有太大关系,所以只能选学历
发表于 2020-08-12 23:46:24 回复(0)
信息增益就是对于信息分类特征明显,对于分类起到很大区分作用的量,如果区分度大,那么信息增益就大,如果区分度小,信息增益就小。
发表于 2020-07-24 16:00:56 回复(0)
北方的本硕博都不如南方的本科收入高。我懂了
发表于 2019-04-02 14:20:19 回复(0)
信息熵,通俗的讲,就是不确定性越大,信息熵就越大

发表于 2019-03-07 09:44:04 回复(0)
熵=-plogp 应该用不上分类,感觉机器学习就是避免手算的 数据成千上万
发表于 2018-09-17 15:55:12 回复(0)
首先,决策树在按信息增益选择特征时,会倾向于取值较多的特征,于是排除年龄和地区;然后对比学历和收入,按学历分割数据集后,得到的分支结果数据最纯,因此选择学历作为划分
发表于 2018-09-10 20:48:21 回复(0)