首页 > 试题广场 >

新闻分类

[数据挖掘题]新闻分类
文本分类作为数据挖掘领域的经典问题,在工程上应用广泛,其中新闻分类即是一种重要的应用场景。互联网上的新闻主要分为体育,军事,娱乐,旅游,汽车,社会,科技,财经等八大类,本题提供了部分新闻分类的训练数据和测试数据,请对测试数据中每一篇新闻按这八大类进行划分。

数据获取

压缩包内包含news_train.csv和news_test.csv两个文件。
news_train.csv:新闻分类的训练数据,每行通过 分为两列,第一列为新闻所属类别,第二列为新闻内容,总共16000行。
news_test.csv:测试数据,每行表示一篇新闻内容,总共8000行。
普通下载 高速下载 测试文件

结果文件上传

对测试数据的每一篇新闻进行分类,输出8000行文件a.txt,文件格式请参考压缩包内的sample_a.txt。
上传数据结果文件,格式仅限txt文件
bayes分类应该就可以了
发表于 2015-07-22 19:45:41 回复(0)
线性核的SVM
发表于 2017-08-14 21:05:40 回复(0)
这个数据包好像是有点问题吧?  用“utf-8"说编码有问题读不了,用”gbk"也是一样的。求问,有哪个大神写了这个问题么?
发表于 2017-05-02 20:49:48 回复(0)
应该采用LDA
发表于 2015-10-26 22:02:44 回复(3)
C45
发表于 2015-01-08 21:57:37 回复(0)