中文自然语言预处理总结_牛客网

北京工业大学自然语言处理发布于安徽

关注

@牛客98796599：中文自然语言预处理总结

目录  中文文本预处理总结  1、文本数据准备  2、全角与半角的转化  3、文本中大写数字转化为小写数字  4、文本中大写字母转化为小写字母  5、文本中的表情符号去除（只保留中英文和数字）  6、去除文本中所有的字符（只保留中文）  7、中文文本分词  8、中文文本停用词过滤  9、将清洗后的数据写入CSV文件   中文文本预处理总结  1、文本数据准备  （1）使用已有的语料库  （2）网络爬虫获取自己的语料库（可以使用beautifulsoup等爬虫工具）  #读取文件列表数据,返回文本数据的内容列表和标签列表def filelist_contents_labels(filelist):    contents=[]    labels = []    for file in filelist:        with open(file, "r", encoding="utf-8") as f:            for row in f.read().splitlines():                sentence=row.split('\t')                contents.append(sentence[-1])                if sentence[0]=='other' :                    labels.append(0)                else:                    labels.append(1)    return contents,labels  2、全角与半角的转化  在自然语言处理过程中，全角、半角的的不一致会导致信息抽取不一致，因此需要统一。中文文字永远是全角，只有英文字母、数字键、符号键才有全角半角的概念,一个字母或数字占一个汉字的位置叫全角，占半个汉字的位置叫半角。标点符号在中英文状态下、全半角的状态下是不同的。  有规律（不含空格）：全角字符unicode编码从65281~65374 （十六进制 0xFF01 ~ 0xFF5E）；半角字符unicode编码从33~126 （十六进制 0x21~ 0x7E）  特例：空格比较特殊，全角为 12288（0x3000），半角为 32（0x20）  #全角转半角def full_to_half(sentence):      #输入为一个句子    change_sentence=""    for word in sentence:        inside_code=ord(word)        if inside_code==12288:    #全角空格直接转换            inside_code=32        elif inside_code>=65281 and inside_code<=65374:  #全角字符（除空格）根据关系转化            inside_code-=65248        change_sentence+=chr(inside_code)    return change_sentence  ord() 函数是 chr() 函数（对于8位的ASCII字符串）或 unichr() 函数（对于Unicode对象）的配对函数，它以一个字符（长度为1的字符串）作为参数，返回对应的 ASCII 数值，或者 Unicode 数值，如果所给的 Unicode 字符超出了你的 Python 定义范围，则会引发一个 TypeError 的异常。  #半角转全角def hulf_to_full(sentence):      #输入为一个句子    change_sentence=""    for word in sentence:        inside_code=ord(word)        if inside_code==32:    #半角空格直接转换            inside_code=12288        elif inside_code>=32 and inside_code<=126:  #半角字符（除空格）根据关系转化            inside_code+=65248        change_sentence+=chr(inside_code)    return change_sentence  3、文本中大写数字转化为小写数字  #大写数字转换为小写数字def big2small_num(sentence):    numlist = {"一":"1","二":"2","三":"3","四":"4","五":"5","六":"6","七":"7","八":"8","九":"9","零":"0"}    for item in numlist:        sentence = sentence.replace(item, numlist[item])    return sentence  4、文本中大写字母转化为小写字母  #大写字母转为小写字母def upper2lower(sentence):    new_sentence=sentence.lower()    return new_sentence  5、文本中的表情符号去除（只保留中英文和数字）  使用正则表达式  #去除文本中的表情字符（只保留中英文和数字）def clear_character(sentence):    pattern1= '\[.*?\]'         pattern2 = re.compile('[^\u4e00-\u9fa5^a-z^A-Z^0-9]')       line1=re.sub(pattern1,'',sentence)    line2=re.sub(pattern2,'',line1)       new_sentence=''.join(line2.split()) #去除空白    return new_sentence  6、去除文本中所有的字符（只保留中文）  #去除字母数字表情和其它字符def clear_character(sentence):    pattern1='[a-zA-Z0-9]'    pattern2 = '\[.*?\]'    pattern3 = re.compile(u'[^\s1234567890:：' + '\u4e00-\u9fa5]+')    pattern4='[’!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~]+'    line1=re.sub(pattern1,'',sentence)   #去除英文字母和数字    line2=re.sub(pattern2,'',line1)   #去除表情    line3=re.sub(pattern3,'',line2)   #去除其它字符    line4=re.sub(pattern4, '', line3) #去掉残留的冒号及其它符号    new_sentence=''.join(line4.split()) #去除空白    return new_sentence  7、中文文本分词  本文使用的是jieba分词。  8、中文文本停用词过滤  #去除停用词，返回去除停用词后的文本列表def clean_stopwords(contents):    contents_list=[]    stopwords = {}.fromkeys([line.rstrip() for line in open('data/stopwords.txt', encoding="utf-8")]) #读取停用词表    stopwords_list = set(stopwords)    for row in contents:      #循环去除停用词        words_list = jieba.lcut(row)        words = [w for w in words_list if w not in stopwords_list]        sentence=''.join(words)   #去除停用词后组成新的句子        contents_list.append(sentence)    return contents_list  9、将清洗后的数据写入CSV文件  # 将清洗后的文本和标签写入.csv文件中def after_clean2csv(contents, labels): #输入为文本列表和标签列表    columns = ['contents', 'labels']    save_file = pd.DataFrame(columns=columns, data=list(zip(contents, labels)))    save_file.to_csv('data/clean_data.csv', index=False, encoding="utf-8")  

点赞 0

评论 0

全部评论

推荐最新楼层

05-28 11:10

5.27OD机考考点+满分写法

五月最后一场机考结束了，昨天很多同学来问考了啥、怎么写能满分。今天把候选人和我复盘的三道题的考点、易错点、满分写法给大家整理出来：一星题1——小学生班长选举核心考点：字符串解析、哈希表 Map、重名处理、投票有效性校验、多级排序考场数据：大部分人70-80分，很少满分典型失分：空字符串选票未过滤重名规则错误（第一个不加编号，第二个加 1）总票数超过班级人数，未直接判定失败排序只按票数，未按字典序满分答题逻辑：先读取班级合法名单，用 HashMap 存储姓名，用于快速校验遍历每一张选票，先判断是否为空、是否在合法名单内，不符合直接作废统计有效票数，判断总票数是否超过班级人数，超限则本次选举无效票...

查看3道真题和解析

点赞评论收藏

分享

05-25 21:06

湖南农业大学客户端开发

C++ 学习项目 Linux任务调度系统

TaskScheduler 是一个Linux 环境下的高性能任务调度系统，支持资源管理、任务队列、超时控制、eBPF 性能分析和 Prometheus 监控。 核心功能：  ✅ 多线程任务调度（生产者-消费者模型） ✅ CPU/内存资源配额管理（线程安全） ✅ 优先级队列 + FIFO 双模式 ✅ 进程生命周期管理（fork/exec、进程组、信号） ✅ 优雅终止（SIGTERM → 宽限期 → SIGKILL） ✅ eBPF 性能分析（bpftrace + 火焰图） ✅ Prometheus 指标导出 ✅ 黑白名单安全控制 ✅ PSI 背压监控  这个项目涵盖的知识将直接应用于：  云原生基...

简历中的项目经历要怎么写

点赞评论收藏

分享

05-19 20:18

已编辑

长沙理工大学 Java

28届双非太难了

沟通了400多份，没什么人理，有一个还是还这种😭😭😭

2025916Ney...：你能这时候知道要实习已经超过90%不要放弃

点赞评论收藏

分享

05-27 19:08

已编辑

门头沟学院推荐算法

这操作太6了

github原来还有挂人的作用搞大模型真是能狠赚笔xxx在coding补课：一个普通的大厂前端实习，可以被包装成 AI Infra；一个并不算核心的工作内容，可以被描述成“关键项目负责人”；一个算不上核心的开源贡献，可以被渲染成项目核心 Maintainer网络上很多博主借助AI包装自己，卖课割韭菜的一堆，大家还是保持理智，有钱不如给AI

wu970：来个仓库链接，开战开战

点赞评论收藏

分享

05-25 09:18

浙江大学算法工程师

应届生必看：C++ 面试八股文总结

校招和暑期实习里，岗位写「C/C++」「客户端」「基础软件」的，C++ 八股几乎躲不掉。很多人项目里用的是「能跑的 C++」，面试却被问到虚表、移动语义、智能指针底层——不是题偏，是考察点和日常写法本来就不是一回事。这篇文章会把应届生最常遇到的 C++ 八股，整理成 50 道标题题单，按模块归类，方便大家按块过一遍。一、C++ 和 C 的关系、基础语法C 和 C++ 的主要区别是什么？struct 和 class 在 C++ 里有什么区别？const 修饰变量、指针、成员函数分别是什么含义？static 关键字在全局变量、局部变量、类成员、类成员函数里各表示什么？extern "C&...

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 要毕业了，再不说就来不及了 #

25714次浏览 335人参与

# 拼多多集团-PDD笔试 #

114821次浏览 702人参与

# 拼多多工作体验 #

68658次浏览 465人参与

# 求职遇到的搞笑事件 #

202904次浏览 1042人参与

# 找工作时遇到的神仙HR #

1253929次浏览 5958人参与

# 体制内上岸心路历程 #

40234次浏览 234人参与

# 职场吐槽大会 #

368455次浏览 2317人参与

# 小米求职进展汇总 #

1085120次浏览 6551人参与

# 你都用AI做什么 #

56415次浏览 528人参与

# 国庆前的秋招小结 #

305337次浏览 1758人参与

# 硬件人秋招进展 #

298258次浏览 4056人参与

# 满分简历要如何准备？ #

323776次浏览 3386人参与

# 三月的小目标 #

144560次浏览 1226人参与

# AI时代下，你的岗位要求有什么变化？ #

43484次浏览 290人参与

# 得物app工作体验 #

71363次浏览 125人参与

# 你是怎么和mt相处的？ #

111997次浏览 583人参与

# 我的AI电子员工 #

45301次浏览 262人参与

# 担心入职之后被发现很菜怎么办 #

309121次浏览 1237人参与

# 万物皆可发面经 #

7852次浏览 94人参与

# 现在还是0offer，延毕还是备考 #

1436096次浏览 7971人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务