初学者|一起学学SpaCy

点击上方蓝色字体,关注AI小白入门


跟着博主的脚步,每天进步一点点




本文简绍了SpaCy的使用方法,据其官网所言,spaCy是世界上最快的工业级自然语言处理工具。



简介


spaCy是世界上最快的工业级自然语言处理工具。 支持多种自然语言处理基本功能。


spaCy主要功能包括分词、词性标注、词干化、命名实体识别、名词短语提取等等。


官网地址:https://spacy.io/



实战


1.安装


# 安装:pip install spaCy# 国内源安装:pip install spaCy  -i https://pypi.tuna.tsinghua.edu.cn/simpleimport spacynlp = spacy.load('en')doc = nlp(u'This is a sentence.')
# 国内源安装:pip install spaCy  -i https://pypi.tuna.tsinghua.edu.cn/simple
import spacy
nlp = spacy.load('en')
doc = nlp(u'This is a sentence.')


2.tokenize功能


for token in doc:    print(token)Thisisasentence.in doc:
   print(token)

This
is
a
sentence
.


3.词干化(Lemmatize)


for token in doc:    print(token, token.lemma_, token.lemma)This this 1995909169258310477is be 10382539506755952630a a 11901859001352538922sentence sentence 18108853898452662235. . 12646065887601541794in doc:
   print(token, token.lemma_, token.lemma)

This this 1995909169258310477
is be 10382539506755952630
a a 11901859001352538922
sentence sentence 18108853898452662235
. . 12646065887601541794


4.词性标注(POS Tagging)


for token in doc:    print(token, token.pos_, token.pos)This DET 89is VERB 99a DET 89sentence NOUN 91. PUNCT 96in doc:
   print(token, token.pos_, token.pos)

This DET 89
is VERB 99
a DET 89
sentence NOUN 91
. PUNCT 96


5.命名实体识别(NER)


for entity in doc.ents:    print(entity, entity.label_, entity.label)in doc.ents:
   print(entity, entity.label_, entity.label)


6.名词短语提取


for nounc in doc.noun_chunks:    print(nounc)a sentencein doc.noun_chunks:
   print(nounc)

a sentence


代码已上传:https://github.com/yuquanle/StudyForNLP/blob/master/NLPtools/SpacyDemo.ipynb


The End


▼往期精彩回顾▼ 新年送福气|您有一份NLP大礼包待领取
自然语言处理中注意力机制综述
达观杯文本智能处理挑战赛冠军解决方案

长按二维码关注
AI小白入门

ID:StudyForAI

学习AI学习ai(爱)

期待与您的相遇~

你点的每个赞,我都认真当成了喜欢
全部评论

相关推荐

迷茫的大四🐶:自信一点,我认为你可以拿到50k,低于50k完全配不上你的能力,兄弟,不要被他们骗了,你可以的
点赞 评论 收藏
分享
群星之怒:不是哥们,你就不好奇瘫痪三十年的老植物人是啥样的吗?
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客企业服务