球球offerrrrrr

2019-07-25 22:58 已编辑北京科技大学 Java

关注

使用哈工大LTP分词工具进行批量中文分词 python3版本

python版本官方项目地址pyLTP
官方文档
本机环境：ubuntu16.04 python3.6
安装项目代码与模型文件官方地址
在home目录下安装项目代码与模型文件，文件夹名称分别为 pyltp 与 ltp_data_v3.4.0
在pyltp目录下，新建三个文件夹sourceWords，targetWords，zidian，script分别存放原语料，目标语料，字典文件，模型文件（将刚才下载好的模型文件放到该目录下）
同时创建分词的py文件 setup.py

代码如下

# -*- coding: utf-8 -*-
import os
LTP_DATA_DIR = './script'  # ltp模型目录的路径
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径，模型名称为`cws.model`

from pyltp import Segmentor
segmentor = Segmentor()  # 初始化实例
segmentor.load_with_lexicon(cws_model_path, './zidian/kong.txt') # 加载模型，第二个参数是您的外部词典文件路径
f = open('./sourceWords/zh_yuliao.txt', 'r', encoding='utf-8')
f_new = open('./targetWords/zh_yuliao_ltp.txt', 'w', encoding='utf-8')
for i in f:
	words = segmentor.segment(i)
	newWords = ' '.join(words) + '\n'
	f_new.write(newWords)
f.close()
f_new.close()
segmentor.release()

该目录下运行python3 setup.py

目前市面上的中文分词工具有很多，有不同的优缺点，阅读了很多博客和文章，结巴分词时推荐较多的，但是在2018年的AI Challenger英中文本机器翻译赛道中决赛答辩选手几乎都使用的哈工大LTP分词，其他文本赛道使用LTP分词的也很多，实际应用过程中应该多做尝试，控制变量寻求最优的分词方法。
推荐一个公众号：AINLP
在公众号里输入：中文分词我也想过过过儿过过的生活
会出现各大分词工具的分词结果，挺有意思的，之前的一篇文章有过简单介绍，有兴趣的可以试试（这句话实验结果LTP分词效果并不好，最好的是jieba和PKUSeg，有意思）

全部评论

推荐最新楼层

07-11 17:43

陕西理工大学产品经理

提前批的第一场面试是百度给的

base北京-产品运营 网页写只招5个人 有没有友友了解一共几面？ 面试都会问什么？ 工作内容会是什么？ 需不需要提前实习呢？

26届校招投递进展

点赞评论收藏

分享

07-11 11:50

门头沟学院运营

六级437怎么你了！！

气死我了啊啊啊啊应聘一个助理职位的怎么也这么难，连六级也要卷起来了。刚想battle说现在英语不是能说能写就好了吗,但又觉得太杠精，又显得我没能力还没事找事...

牛客55695438...：估计是看你和那个人条件差不多，所以就从六级开始筛选了

点赞评论收藏

分享

不愿透露姓名的神秘牛友

06-11 13:34

0实习双非进大厂，我做了什么

offe从四面八方来：我真的没时间陪你闹了

点赞评论收藏

分享

06-03 19:26

西北农林科技大学 C++

这是什么中老年人的发言

上来就是就业毫无难度😅

Twilight_m...：经典我朋友XXXX起手，这是那种经典的不知道目前行情搁那儿胡编乱造瞎指导的中年人，不用理这种**

点赞评论收藏

分享

昨天 13:17

已编辑

南昌大学 Java

0实习0面试, 速通拼多多

TimeLine6.06 官网投递6.16 笔试 2道 + 2个一半6.19 补性格测试6.26 约一面 没准备好, 推迟6.30 一面第一次面试, 没发挥好, 简历投的还是第一版的, 非常烂手撕是个hard, 思路看完题目就知道是懒删除堆,但真的做不出来, 最后写了个暴力7.08 二面 在大量八股中晕头转向, 大部分答上来了7.09 电话约主管面7.09 主管面 反问给主管聊爽了7.09 电话约HR面7.09 HR面 表达意愿度强烈即可7.14 信息确认7.14 offer letter7.16 入职登记7.21 预计入职报到一面1. 自我介绍2. 拷打项目, 项目介绍, 为什么做这个项目,...

_常遇春_：国二和国一这两个含金量不必多说

拼多多求职进展汇总

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 26届的你们有几段实习？ #

19704次浏览 274人参与

# 你小时候最想从事什么职业 #

102733次浏览 1771人参与

# 你被哪些公司秒挂过？ #

18660次浏览 182人参与

# 网申一定要掌握的小技巧 #

9651次浏览 65人参与

# 如何提高实习转正率？ #

7555次浏览 133人参与

# 新凯来求职进展汇总 #

41033次浏览 108人参与

# 你认为哪些项目算烂大街？ #

8342次浏览 196人参与

# 机械校招之路总结 #

92422次浏览 1889人参与

# 你后悔自己读研吗？ #

8967次浏览 175人参与

# 你以为的实习VS真实的实习 #

11503次浏览 131人参与

# 月薪多少能在一线城市生存 #

10753次浏览 169人参与

# 腾讯工作体验 #

479960次浏览 3498人参与

# 找工作时的取与舍 #

81322次浏览 577人参与

# 最难的技术面是哪家公司？ #

5972次浏览 58人参与

# 秋招拿一个offer可以躺平吗 #

144964次浏览 928人参与

# 安利/避雷我的专业 #

77747次浏览 526人参与

# 面试等了一周没回复，还有戏吗 #

137185次浏览 1229人参与

# 你想留在一线还是回老家？ #

50057次浏览 513人参与

# 选择和努力，哪个更重要？ #

86059次浏览 745人参与

# 当下环境，你会继续卷互联网，还是看其他行业机会 #

114946次浏览 799人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务