中文自然语言预处理总结_牛客网

自然语言处理发布于安徽

关注

@牛客98796599：中文自然语言预处理总结

目录  中文文本预处理总结  1、文本数据准备  2、全角与半角的转化  3、文本中大写数字转化为小写数字  4、文本中大写字母转化为小写字母  5、文本中的表情符号去除（只保留中英文和数字）  6、去除文本中所有的字符（只保留中文）  7、中文文本分词  8、中文文本停用词过滤  9、将清洗后的数据写入CSV文件   中文文本预处理总结  1、文本数据准备  （1）使用已有的语料库  （2）网络爬虫获取自己的语料库（可以使用beautifulsoup等爬虫工具）  #读取文件列表数据,返回文本数据的内容列表和标签列表def filelist_contents_labels(filelist):    contents=[]    labels = []    for file in filelist:        with open(file, "r", encoding="utf-8") as f:            for row in f.read().splitlines():                sentence=row.split('\t')                contents.append(sentence[-1])                if sentence[0]=='other' :                    labels.append(0)                else:                    labels.append(1)    return contents,labels  2、全角与半角的转化  在自然语言处理过程中，全角、半角的的不一致会导致信息抽取不一致，因此需要统一。中文文字永远是全角，只有英文字母、数字键、符号键才有全角半角的概念,一个字母或数字占一个汉字的位置叫全角，占半个汉字的位置叫半角。标点符号在中英文状态下、全半角的状态下是不同的。  有规律（不含空格）：全角字符unicode编码从65281~65374 （十六进制 0xFF01 ~ 0xFF5E）；半角字符unicode编码从33~126 （十六进制 0x21~ 0x7E）  特例：空格比较特殊，全角为 12288（0x3000），半角为 32（0x20）  #全角转半角def full_to_half(sentence):      #输入为一个句子    change_sentence=""    for word in sentence:        inside_code=ord(word)        if inside_code==12288:    #全角空格直接转换            inside_code=32        elif inside_code>=65281 and inside_code<=65374:  #全角字符（除空格）根据关系转化            inside_code-=65248        change_sentence+=chr(inside_code)    return change_sentence  ord() 函数是 chr() 函数（对于8位的ASCII字符串）或 unichr() 函数（对于Unicode对象）的配对函数，它以一个字符（长度为1的字符串）作为参数，返回对应的 ASCII 数值，或者 Unicode 数值，如果所给的 Unicode 字符超出了你的 Python 定义范围，则会引发一个 TypeError 的异常。  #半角转全角def hulf_to_full(sentence):      #输入为一个句子    change_sentence=""    for word in sentence:        inside_code=ord(word)        if inside_code==32:    #半角空格直接转换            inside_code=12288        elif inside_code>=32 and inside_code<=126:  #半角字符（除空格）根据关系转化            inside_code+=65248        change_sentence+=chr(inside_code)    return change_sentence  3、文本中大写数字转化为小写数字  #大写数字转换为小写数字def big2small_num(sentence):    numlist = {"一":"1","二":"2","三":"3","四":"4","五":"5","六":"6","七":"7","八":"8","九":"9","零":"0"}    for item in numlist:        sentence = sentence.replace(item, numlist[item])    return sentence  4、文本中大写字母转化为小写字母  #大写字母转为小写字母def upper2lower(sentence):    new_sentence=sentence.lower()    return new_sentence  5、文本中的表情符号去除（只保留中英文和数字）  使用正则表达式  #去除文本中的表情字符（只保留中英文和数字）def clear_character(sentence):    pattern1= '\[.*?\]'         pattern2 = re.compile('[^\u4e00-\u9fa5^a-z^A-Z^0-9]')       line1=re.sub(pattern1,'',sentence)    line2=re.sub(pattern2,'',line1)       new_sentence=''.join(line2.split()) #去除空白    return new_sentence  6、去除文本中所有的字符（只保留中文）  #去除字母数字表情和其它字符def clear_character(sentence):    pattern1='[a-zA-Z0-9]'    pattern2 = '\[.*?\]'    pattern3 = re.compile(u'[^\s1234567890:：' + '\u4e00-\u9fa5]+')    pattern4='[’!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~]+'    line1=re.sub(pattern1,'',sentence)   #去除英文字母和数字    line2=re.sub(pattern2,'',line1)   #去除表情    line3=re.sub(pattern3,'',line2)   #去除其它字符    line4=re.sub(pattern4, '', line3) #去掉残留的冒号及其它符号    new_sentence=''.join(line4.split()) #去除空白    return new_sentence  7、中文文本分词  本文使用的是jieba分词。  8、中文文本停用词过滤  #去除停用词，返回去除停用词后的文本列表def clean_stopwords(contents):    contents_list=[]    stopwords = {}.fromkeys([line.rstrip() for line in open('data/stopwords.txt', encoding="utf-8")]) #读取停用词表    stopwords_list = set(stopwords)    for row in contents:      #循环去除停用词        words_list = jieba.lcut(row)        words = [w for w in words_list if w not in stopwords_list]        sentence=''.join(words)   #去除停用词后组成新的句子        contents_list.append(sentence)    return contents_list  9、将清洗后的数据写入CSV文件  # 将清洗后的文本和标签写入.csv文件中def after_clean2csv(contents, labels): #输入为文本列表和标签列表    columns = ['contents', 'labels']    save_file = pd.DataFrame(columns=columns, data=list(zip(contents, labels)))    save_file.to_csv('data/clean_data.csv', index=False, encoding="utf-8")  

点赞 0

评论 0

全部评论

推荐最新楼层

会new对象的Java工程师

05-16 18:51

已编辑

门头沟学院计算机类

快手二面(压力面) 1h30min

1.git命令merage和rebase的区别? (一面没答上来的问题)2.异步任务、同步任务、串行队列、并行队列分别是什么？ 你是如何处理异步任务的？（完全不会，面试官详细讲解了）3.内存对齐是什么？（不会）4.常用的数据结构？ set和map的区别？ 数组和链表的区别？两个遍历数组谁更快？ ArrayList是怎么扩容的？5.如果让你实现王者荣耀的通信，你会采用什么协议？（回答UDP） 为什么使用UDP？（回答了传输速度快，还有可容忍数据丢失） 除了速度快，没别的原因了吗？（又回答了UDP是一对多，TCP是端对端）6.hash冲突怎么解决的？7.项目中遇到了那些困难...

快手二面153人在聊

查看11道真题和解析

点赞评论收藏

转发

05-17 23:16

已编辑

阿里云_基础设施事业部_性能优化工程师(实习员工)

C++菜鸡的暑期实习总结（待补充）

学历：双9硕无论文，实验室项目一坨leetcode：200+，代码随想录+hot100方向：模型推理加速优化、cuda高性能投递+面试+oc： 投递48，约面16（一共面了21次），oc5投递岗位（给大伙参考一下）：机器学习引擎工程师，模型优化算法工程师，引擎研发工程师，机器学习算法工程师，ai软件开发，高性能计算工程师，深度学习框架工程师，cuda优化，模型部署，AI编译，推理引擎研发，基础架构工程师，高性能异构计算工程师TimeLine：（完全没理我以及没动静的就不提了）3.29 美团 4.6 笔试 A前四题4.15 没hc了，接受调剂，搞着玩3.29 地平线 4.5 简历挂3.29 快手...

查看14道真题和解析我的实习求职记录

点赞评论收藏

转发

03-30 10:54

广州应用科技学院计算机类

点赞评论收藏

转发

鼠鼠鸭求offer

05-20 13:21

已编辑

货拉拉_前端实习生(实习员工)

双非本腾讯WXG暑期已offer | 附面经

bg：长沙某双非本 + 货拉拉5个月实习部门：wxg 前端timeline：4.15 投递4.21 一面4.24 二面 下午约三面4.29 三面（面委面）5.2 约hr面（放假也约面，不愧是wxg）5.6 hr面5.7 录用评估+云证5.20 offerPS：面经在最后收到腾讯WXG的offer应该是今年第二快乐的事情了吧（第一快乐要留给今年的秋招！）感慨万分，一路走过来总是那么刚刚好，机缘巧合之下被学长拉进了洋神@洋洋洋洋仔的群，又在群里机缘巧合之下认识了晗哥@维克托s（24秋招腾讯✌️）内推进了货拉拉，实习期间也没怎么准备暑期，到四月中才开始投递，踩着暑期实习招聘的尾巴拿下了WXG的off...

双非本科求职如何逆袭

点赞评论收藏

转发

点赞收藏评论

全站热榜

正在热议

# 牛客帮帮团来啦！有问必答 #

823793次浏览 13051人参与

# 机械制造薪资爆料 #

320314次浏览 3733人参与

# 晒一晒我的offer #

3469911次浏览 55270人参与

# 0offer是寒冬太冷还是我太菜 #

428240次浏览 4946人参与

# 你觉得找工作该拿大厂还是小厂练手 #

61692次浏览 872人参与

# 荣耀求职进展汇总 #

70706次浏览 717人参与

# 如果可以选，你最想从事什么工作 #

186249次浏览 3078人参与

# 实习生应该准时下班吗 #

80841次浏览 593人参与

# 金三银四，你有感觉到吗 #

329456次浏览 4224人参与

# 海康威视求职进展汇总 #

101677次浏览 1217人参与

# 正在春招的你，也参与了去年秋招吗？ #

136513次浏览 1705人参与

# 实习必须要去大厂吗？ #

13896次浏览 220人参与

# 实习工作，你找得还顺利吗？ #

42511次浏览 469人参与

# 我在牛爱网找对象 #

50099次浏览 325人参与

# 软件开发投递记录 #

479313次浏览 7244人参与

# 宁德时代求职进展汇总 #

37103次浏览 413人参与

# 国企vs私企，你更想去？ #

20282次浏览 205人参与

# 求职遇到的搞笑事件 #

19709次浏览 287人参与

# 想实习转正，又想准备秋招，我该怎么办 #

117986次浏览 1332人参与

# 正在实习的你，有转正机会吗？ #

106518次浏览 1044人参与

牛客网
牛客企业服务