在移动互联网时代,用户行为数据急剧增长,使得用户的历史消费信息大量积累,那么如何利用这些用户行为信息成为技术瓶颈和算法挑战。其中用户评论信息有很大的利用价值,但是其中充斥着大量的垃圾信息例如(广告信息,推广信息,涉黄,涉政等),那么我们需要利用机器学习的手段,对这些已经标注了的信息进行训练,从而应用于新的评论信息达到自动化标注的效果。(提示可以采用贝叶斯算法进行分类建模)
输入
输入数据每行代表一条用户评论信息,其中第一列是评论标签0,1,第二列是用户的评论信息分词后的词id以及词频,输入文件说明:
train.in
60%
test.in
40%
输出
模型文件:model.out
测试:test.out
输入样例
标签
词id:词频
0 128:51 129:159 130:253 131:159 132:50
155:48
输出样例
词id 标签 预测标签
128 129
0 0
130 132
1 1