2019-07-25 20:43 已编辑郑州轻工业大学 golang

关注

中国高校计算机大数据挑战赛预选赛baseline

中国高校计算机大数据挑战赛预选赛baseline

预选赛：文本情感分类模型

本预选赛要求选手建立文本情感分类模型，选手用训练好的模型对测试集中的文本情感进行预测，判断其情感为「Negative」或者「Positive」。所提交的结果按照指定的评价指标使用在线评测数据进行评测，达到或超过规定的分数线即通过预选赛。

这次比赛可以利用TF-IDE进行建模。

以下是我用一个小时为本赛题建立的的baseline

import sys, os, re, csv, codecs, numpy as np, pandas as pd
from nltk.corpus import stopwords
from nltk.stem import SnowballStemmer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn import svm
#读取文件
train = pd.read_csv( "train.csv" ,lineterminator='\n')
train['label']['Negative'] = 0 
#数据处理
train.ix[train['label']=='Positive','label']=1
train.ix[train['label']=='Negative','label']=0
train.info()
train.nunique()
train['label'].value_counts()
train[["review","label"]].values.shape
train["label"].fillna("fillna").values
test = pd.read_csv('20190520_test.csv',lineterminator='\n')
test_id= test["ID"].copy()
#建模过程
vec = TfidfVectorizer(ngram_range=(1,2),min_df=1, max_df=0.65,use_idf=1,smooth_idf=1, sublinear_tf=1)
train_column = "review"
test_column = 'review'
trn_term_doc = vec.fit_transform(train[train_column])
test_term_doc = vec.transform(test[test_column])
fid0=open('baseline.csv','w')
y=(train["label"]).astype(int)
lin_clf = svm.LinearSVC()
lin_clf.fit(trn_term_doc,y)
preds = lin_clf.predict(test_term_doc)
i=1
fid0.write("ID,Pred"+"\n")
for item in preds:
    fid0.write(str(i)+","+str(item)+"\n")
    i=i+1
fid0.close()

只要对以上代码进行认真的修改，即可通过初赛。
声明：本人不擅长自然语言处理领域，还望大佬们多多指点。

比赛链接为https://www.kesci.com/home/competition/5cb80fd312c371002b12355f/content/1

全部评论

推荐最新楼层

昨天 11:33

门头沟学院机械工程师

别再指望实习能学到东西了

最近看牛客里有人发实习学不到东西？你在学校三四年都没学到什么 为啥要指望实习三四个月可以给你带来什么 找实习还是不要奔着学东西去了好吧！说真的！人家真的没有义务教你什么！！而且你只是实习！！教会你就跑了 人家公司图什么呢

求职老司机：实习四个月抵学校四年

你觉得实习能学到东西吗

点赞评论收藏

分享

06-30 00:12

浙江大学集成电路IC设计

牛友们，今天和女朋友分手了

今天和女朋友分手了，有很多话想说但是发到其他平台她肯定会看见，思来想去貌似只有牛客她看不到了。鼠鼠是典型的小镇做题家出生，今年研二马上找工作，家庭是普通职工家庭，父母都很开明，无权无势，我是独生子虽然没问过爸妈能支持我多少钱，但是我估摸着能有二十万就不错了，鼠鼠本身也是学电子类专业的，本科是差一点的九八五，现在硕士是挺不错九八五的电子类，目前也在ic相关公司实习，并且秋招打算找ic相关的工作，因为考虑到ic薪资也还不错，自己绝对是能养活自己的，但是要在一二线城市买房，压力就会显得非常大了，况且我也不愿意掏空爸妈供我买房，女朋友家庭条件比我好，我爸妈支持我的她爸妈应该很轻松就能给她，而且她也说不...

马月在431摸鱼：搞不懂，为什么不让ta给你一个未来……

如何一边实习一边秋招

点赞评论收藏

分享

06-20 08:56

长安大学产品经理

HR说这话什么意思？

搞抽象？调节氛围？玩尬的？咱也就是说，你觉得呢？？？

起一个响亮的名字吧_...：所以头像是本人吗

点赞评论收藏

分享

05-27 15:46

已编辑

广东药科大学科研助理

求内推！ 年龄:21 身高:153cm 体重:44kg薪资:5000-6000学历:本科 专业:生物技术经验:25届应届毕业生岗位:质量体系维护助理，生物销售，医疗器械、药品销售培训生意向城市:广州要求:五险一金

新晋切图仔：44kg那么轻，要多吃点啊

点赞评论收藏

分享

今天 11:05

广东工业大学算法工程师

没人告诉我上了班后这么痛苦啊

通勤就够累了，回到家吃完饭后自由支配的时间更是少之又少，第二天又要去上班。大学好歹每天课程时间不一，上班却是天天都早八满课的程度。有没有一样痛苦的兄弟，大家一起聊聊天啥的

投递58到家等公司8个岗位

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 实习，不懂就问 #

9353次浏览 120人参与

# 如果中了500万，你会离职吗？ #

85293次浏览 666人参与

# 现代汽车前瞻技术研发急速编程挑战赛 #

16373次浏览 150人参与

# 你觉得实习能学到东西吗 #

4430次浏览 86人参与

# 如何准备秋招 #

2632次浏览 39人参与

# 你觉得现在还能进互联网吗？ #

750次浏览 25人参与

# 哪个瞬间让你对大厂祛魅了？ #

378926次浏览 2770人参与

# 秋招什么时候开投比较合适？ #

1809次浏览 33人参与

# 一觉醒来，秋招难度下降一万倍…… #

83288次浏览 642人参与

# 打工人的精神状态 #

51106次浏览 917人参与

# 聊聊你的职场新体验 #

160557次浏览 1384人参与

# 校招求职有谈薪空间吗 #

149926次浏览 2031人参与

# 预测一下26届秋招形势 #

7087次浏览 78人参与

# 每个月的工资都是怎么分配的？ #

4472次浏览 79人参与

# 软开人，说说你的烦心事 #

53327次浏览 368人参与

# 诺瓦星云求职进展汇总 #

200384次浏览 1665人参与

# 京东美团大战，你怎么看？ #

92077次浏览 566人参与

# 机械实习一天多少钱合适？ #

27759次浏览 168人参与

# 你觉得专业和学校哪个对薪资影响最大 #

61535次浏览 491人参与

# 新凯来求职进展汇总 #

39864次浏览 103人参与

# 我的国央企投递进展 #

44666次浏览 276人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务