初学者|一起来学习pyltp

点击上方蓝色字体,关注AI小白入门


跟着博主的脚步,每天进步一点点




本文简绍了pyltp的使用方法,它提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。



简介


LTP提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。Pyltp是其的python接口。


官网地址:https://www.ltp-cloud.com/

官方文档:https://ltp.readthedocs.io/zh_CN/latest/begin.html



实战


1.安***r>


# 安装:pip install pyltp,前面说过通过这种方式安装一直不能成功# pyltp安装有点麻烦-.-,于是记录了window 10下的一种成功安装方法# 1.首先,pip install pyltp安装报错:error: command 'C:\Program Files (x86)\Microsoft Visual Studio 14.0\VC\BIN\x86_amd64\cl.exe' failed with exit status 2# 安装cmake,下载地址,https://cmake.org/download/ # 安装VS2008 EXPRESS,下载网址:https://visualstudio.microsoft.com/zh-hans/vs/express/# 2.然后,我选择使用python setup.py install安装 # - 下载pyltp,地址:https://github.com/hit-scir/pyltp # - 下载ltp,地址:https://github.com/hit-scir/ltp  # - 解压ltp,然后将解压之后文件命名为ltp,覆盖pyltp文件夹中的ltp # - 打开cmd,进入到pyltp目录下,找到setup.py # - 先执行命令:python setup.py build # - 然后执行命令:python setup.py install# 3.使用里面的预训练模型,需要先下载,然后指定相应目录 # - 下载地址:http://ltp.ai/download.html# 注意:ltp3.4.0 版本 SRL模型 pisrl.model在windows系统下不可用 下载这个:http://ospm9rsnd.bkt.clouddn.com/server/3.4.0/pisrl_win.model
# pyltp安装有点麻烦-.-,于是记录了window 10下的一种成功安装方法
# 1.首先,pip install pyltp安装报错:error: command 'C:\Program Files (x86)\Microsoft Visual Studio 14.0\VC\BIN\x86_amd64\cl.exe' failed with exit status 2
# 安装cmake,下载地址,https://cmake.org/download/
# 安装VS2008 EXPRESS,下载网址:https://visualstudio.microsoft.com/zh-hans/vs/express/

# 2.然后,我选择使用python setup.py install安装

# - 下载pyltp,地址:https://github.com/hit-scir/pyltp
# - 下载ltp,地址:https://github.com/hit-scir/ltp  
# - 解压ltp,然后将解压之后文件命名为ltp,覆盖pyltp文件夹中的ltp # - 打开cmd,进入到pyltp目录下,找到setup.py
# - 先执行命令:python setup.py build
# - 然后执行命令:python setup.py install

# 3.使用里面的预训练模型,需要先下载,然后指定相应目录

# - 下载地址:http://ltp.ai/download.html
# 注意:ltp3.4.0 版本 SRL模型 pisrl.model在windows系统下不可用 下载这个:http://ospm9rsnd.bkt.clouddn.com/server/3.4.0/pisrl_win.model


2.分词


from pyltp import Segmentorseg = Segmentor() #生成对象seg.load("pyltp-model\ltp_data_v3.4.0\cws.model") #加载分词预训练模型seg_words = seg.segment("我爱自然语言处理技术!")print(" ".join(seg_words))seg.release() #释放资源我 爱 自然 语言 处理 技术 !import Segmentor
seg = Segmentor() #生成对象
seg.load("pyltp-model\ltp_data_v3.4.0\cws.model") #加载分词预训练模型
seg_words = seg.segment("我爱自然语言处理技术!")
print(" ".join(seg_words))
seg.release() #释放资源

我 爱 自然 语言 处理 技术 !


3.词性标注(对分好的词进行标注)


from pyltp import Postagger  pos=Postagger()#加载词性预训练模型pos.load("pyltp-model\ltp_data_v3.4.0\pos.model")words_pos=pos.postag(seg_words)for k,v in zip(seg_words, words_pos):    print(k+'\t'+v)pos.release()我   r爱   v自然  n语言  n处理  v技术  n!   wpimport Postagger  
pos=Postagger()
#加载词性预训练模型
pos.load("pyltp-model\ltp_data_v3.4.0\pos.model")
words_pos=pos.postag(seg_words)
for k,v in zip(seg_words, words_pos):
   print(k+'\t'+v)
pos.release()

我   r
爱   v
自然  n
语言  n
处理  v
技术  n
!   wp


4.命名实体识别


from pyltp import NamedEntityRecognizerner = NamedEntityRecognizer()#加载命名实体识别预训练模型ner.load("pyltp-model\ltp_data_v3.4.0\ner.model")netags=ner.recognize(seg_words,words_pos)print(" ".join(netags))ner.release()import NamedEntityRecognizer
ner = NamedEntityRecognizer()
#加载命名实体识别预训练模型
ner.load("pyltp-model\ltp_data_v3.4.0\ner.model")
netags=ner.recognize(seg_words,words_pos)
print(" ".join(netags))
ner.release()


5.依存句法分析


from pyltp import Parserparser=Parser()parser.load("pyltp-model\ltp_data_v3.4.0\parser.model")arcs=parser.parse(seg_words,words_pos)print([(arc.head,arc.relation) for arc in arcs])parser.release()[(2, 'SBV'), (0, 'HED'), (4, 'ATT'), (5, 'FOB'), (2, 'VOB'), (5, 'VOB'), (2, 'WP')]import Parser
parser=Parser()
parser.load("pyltp-model\ltp_data_v3.4.0\parser.model")
arcs=parser.parse(seg_words,words_pos)
print([(arc.head,arc.relation) for arc in arcs])
parser.release()

[(2, 'SBV'), (0, 'HED'), (4, 'ATT'), (5, 'FOB'), (2, 'VOB'), (5, 'VOB'), (2, 'WP')]


6.语义角色标注


from pyltp import SementicRoleLabellerlabeller = SementicRoleLabeller()labeller.load("pyltp-model\ltp_data_v3.4.0\pisrl_win.model")roles = labeller.label(seg_words,words_pos,arcs)for role in roles:    print(role.index, "".join(        ["%s:(%d,%d)" % (arg.name, arg.range.start, arg.range.end) for arg in role.arguments]))1 A0:(0,0)A1:(2,5)4 A1:(5,5)import SementicRoleLabeller
labeller = SementicRoleLabeller()
labeller.load("pyltp-model\ltp_data_v3.4.0\pisrl_win.model")
roles = labeller.label(seg_words,words_pos,arcs)
for role in roles:
   print(role.index, "".join(
       ["%s:(%d,%d)" % (arg.name, arg.range.start, arg.range.end) for arg in role.arguments]))

1 A0:(0,0)A1:(2,5)
4 A1:(5,5)


代码已上传:

https://github.com/yuquanle/StudyForNLP/blob/master/NLPtools/PyltpDemo.ipynb


The End


▼往期精彩回顾▼ 新年送福气|您有一份NLP大礼包待领取
自然语言处理中注意力机制综述
达观杯文本智能处理挑战赛冠军解决方案

长按二维码关注
AI小白入门

ID:StudyForAI

学习AI学习ai(爱)

期待与您的相遇~

你点的每个赞,我都认真当成了喜欢
全部评论

相关推荐

头像
04-09 14:29
Java
点赞 评论 收藏
转发
点赞 收藏 评论
分享
牛客网
牛客企业服务