首页 > 试题广场 >

利用机器学习的手段,对这些已经标注了的信息进行训练,从而应用

[问答题]

在移动互联网时代,用户行为数据急剧增长,使得用户的历史消费信息大量积累,那么如何利用这些用户行为信息成为技术瓶颈和算法挑战。其中用户评论信息有很大的利用价值,但是其中充斥着大量的垃圾信息例如(广告信息,推广信息,涉黄,涉政等),那么我们需要利用机器学习的手段,对这些已经标注了的信息进行训练,从而应用于新的评论信息达到自动化标注的效果。(提示可以采用贝叶斯算法进行分类建模)

输入

输入数据每行代表一条用户评论信息,其中第一列是评论标签0,1,第二列是用户的评论信息分词后的词id以及词频,输入文件说明:

train.in 

60%

test.in  

40%

输出

模型文件:model.out

测试:test.out

输入样例

标签

词id:词频

0 128:51 129:159 130:253 131:159 132:50

155:48

输出样例

词id     标签    预测标签

128 129    

0        0

130 132    

1          1

什么破烂东西

发表于 2017-10-09 19:37:05 回复(0)