使用哈工大LTP分词工具进行批量中文分词 python3版本

python版本官方项目地址pyLTP
官方文档
本机环境:ubuntu16.04 python3.6
安装项目代码与模型文件 官方地址
在home目录下安装项目代码与模型文件,文件夹名称分别为 pyltp 与 ltp_data_v3.4.0
在pyltp目录下,新建三个文件夹sourceWords,targetWords,zidian,script分别存放原语料,目标语料,字典文件,模型文件(将刚才下载好的模型文件放到该目录下)
同时创建分词的py文件 setup.py

代码如下

# -*- coding: utf-8 -*-
import os
LTP_DATA_DIR = './script'  # ltp模型目录的路径
cws_model_path = os.path.join(LTP_DATA_DIR, 'cws.model')  # 分词模型路径,模型名称为`cws.model`

from pyltp import Segmentor
segmentor = Segmentor()  # 初始化实例
segmentor.load_with_lexicon(cws_model_path, './zidian/kong.txt') # 加载模型,第二个参数是您的外部词典文件路径
f = open('./sourceWords/zh_yuliao.txt', 'r', encoding='utf-8')
f_new = open('./targetWords/zh_yuliao_ltp.txt', 'w', encoding='utf-8')
for i in f:
	words = segmentor.segment(i)
	newWords = ' '.join(words) + '\n'
	f_new.write(newWords)
f.close()
f_new.close()
segmentor.release()

该目录下运行python3 setup.py


目前市面上的中文分词工具有很多,有不同的优缺点,阅读了很多博客和文章,结巴分词时推荐较多的,但是在2018年的AI Challenger英中文本机器翻译赛道中决赛答辩选手几乎都使用的哈工大LTP分词,其他文本赛道使用LTP分词的也很多,实际应用过程中应该多做尝试,控制变量寻求最优的分词方法。
推荐一个公众号:AINLP
在公众号里输入: 中文分词 我也想过过过儿过过的生活
会出现各大分词工具的分词结果,挺有意思的,之前的一篇文章有过简单介绍,有兴趣的可以试试(这句话实验结果LTP分词效果并不好,最好的是jieba和PKUSeg,有意思)

全部评论

相关推荐

点赞 收藏 评论
分享
牛客网
牛客企业服务