2019-07-26 00:55 已编辑湖南大学算法工程师

关注

初学者|知否?知否?一文学会Jieba使用方法

点击上方蓝色字体，关注AI小白入门哟

跟着博主的脚步，每天进步一点点

我始终觉得，入门学习一件事情最好的方式就是实践，加之现在python如此好用，有越来越多的不错nlp的python库，所以接下来的一段时间里，让我们一起来感受一下这些不错的工具。后面代码我均使用jupyter编辑。先来罗列一波：jieba、hanlp、snownlp、Stanfordcorenlp、spacy、pyltp、nltk、Textblob等等…今天从jieba开始吧，let's begin。

简介

“结巴”中文分词，做最好的 Python 中文分词组件。主要功能包括分词、词性标注、关键词抽取等。

Github地址:https://github.com/fxsjy/jieba

支持繁体分词、支持自定义词典、支持三种分词模式:

精确模式，试图将句子最精确地切开，适合文本分析；
全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

实战

1.分词

# 支持三种分词模式（默认是精确模式）import jiebasegfull_list = jieba.cut("我爱自然语言处理技术！", cut_all=True)print("Full Mode: " + " ".join(segfull_list))  # 全模式segdef_list = jieba.cut("我爱自然语言处理技术!", cut_all=False)print("Default Mode: " + "  ".join(segdef_list))  # 精确模式seg_search_list = jieba.cut_for_search("我爱自然语言处理技术!")  # 搜索引擎模式print("Search Mode:" + " ".join(seg_search_list))Building prefix dict from the default dictionary ...Loading model from cache C:\Users\yuquanle\AppData\Local\Temp\jieba.cacheLoading model cost 0.830 seconds.Prefix dict has been built succesfully.Full Mode: 我 爱 自然 自然语言 语言 处理 技术  Default Mode: 我  爱  自然语言  处理  技术  !Search Mode:我 爱 自然 语言 自然语言 处理 技术 !
import jieba
segfull_list = jieba.cut("我爱自然语言处理技术！", cut_all=True)
print("Full Mode: " + " ".join(segfull_list))  # 全模式

segdef_list = jieba.cut("我爱自然语言处理技术!", cut_all=False)
print("Default Mode: " + "  ".join(segdef_list))  # 精确模式

seg_search_list = jieba.cut_for_search("我爱自然语言处理技术!")  # 搜索引擎模式
print("Search Mode:" + " ".join(seg_search_list))
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\yuquanle\AppData\Local\Temp\jieba.cache
Loading model cost 0.830 seconds.
Prefix dict has been built succesfully.


Full Mode: 我 爱 自然 自然语言 语言 处理 技术  
Default Mode: 我  爱  自然语言  处理  技术  !
Search Mode:我 爱 自然 语言 自然语言 处理 技术 !

2.基于 TF-IDF算法关键词抽取

# 参数：# sentence：待分析文本；# topK：返回几个 TF/IDF 权重最大的关键词，默认值为 20# withWeight：是否一并返回关键词权重值，默认值为 False# allowPOS：仅包括指定词性的词，默认值为空，即不筛选import jieba.analysesentence = "我爱自然语言处理技术!"tags = jieba.analyse.extract_tags(sentence, withWeight=True, topK=2, allowPOS=())print(tags)[('自然语言', 3.4783139164), ('处理', 1.8036185524533332)]
# sentence：待分析文本；
# topK：返回几个 TF/IDF 权重最大的关键词，默认值为 20
# withWeight：是否一并返回关键词权重值，默认值为 False
# allowPOS：仅包括指定词性的词，默认值为空，即不筛选
import jieba.analyse
sentence = "我爱自然语言处理技术!"
tags = jieba.analyse.extract_tags(sentence, withWeight=True, topK=2, allowPOS=())
print(tags)

[('自然语言', 3.4783139164), ('处理', 1.8036185524533332)]

3.基于 TextRank 算法的关键词抽取

# 参数：# allowPOS：默认过滤词性jieba.analyse.textrank(sentence, topK=1, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))['技术']
# allowPOS：默认过滤词性
jieba.analyse.textrank(sentence, topK=1, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))

['技术']

4.词性标注

import jieba.posseg as psegsentence = "我爱自然语言处理！"words = pseg.cut(sentence)for word, flag in words:        print('%s %s' % (word, flag))我 r爱 v自然语言 l处理 v！ xas pseg
sentence = "我爱自然语言处理！"
words = pseg.cut(sentence)
for word, flag in words:    
    print('%s %s' % (word, flag))

我 r
爱 v
自然语言 l
处理 v
！ x

5.分词（tokenize）

result = jieba.tokenize(u'我爱自然语言处理')for tk in result:    print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))word 我       start: 0        end:1word 爱       start: 1        end:2word 自然语言        start: 2        end:6word 处理      start: 6        end:8
for tk in result:
    print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))

word 我       start: 0        end:1
word 爱       start: 1        end:2
word 自然语言        start: 2        end:6
word 处理      start: 6        end:8

代码已上传： https://github.com/yuquanle/StudyForNLP/blob/master/NLPtools/JiebaDemo.ipynb

The End

▼往期精彩回顾▼ 新年送福气|您有一份NLP大礼包待领取
初学者|一文掌握HanLP用法
初学者|NLP相关任务简介

长按二维码关注
AI小白入门

ID:StudyForAI

学习AI学习ai(爱)

期待与您的相遇~

你点的每个赞，我都认真当成了喜欢

全部评论

推荐最新楼层

昨天 15:20

东北大学 Java

字节-中国交易与广告-一面凉经

📍面试公司：字节-中国交易与广告🕐面试时间：4-1💻面试岗位：后端开发❓面试问题：全程问黑马点评那个项目1.token是怎么生成的；2.token续约是怎么做的3.为什么用threadlocal4.threadlocal有什么缺点5.有什么可以代替threadlocal(问我知不知道另外一种threadlocal，听都没听过，没回答上来)6.讲一下redis五种数据结构的底层7.你的项目支持在多端登录吗？8.怎么把他改造成只允许在一个设备上面登录然后是道算法题：寻找重复数（上去脑子短路了，一下没想起来，悲）🙌面试感想：项目全部回答上来了，但是算法没写出来，凉了，感觉面试官还不错，就是自...

查看9道真题和解析

点赞评论收藏

分享

03-30 19:33

门头沟学院 Web前端

腾讯PCG一面凉经

在你简历中的两个项目里，你觉得哪一个做得比较好或者更有技术含量？讲一下虚拟滚动的实现原理是什么？虚拟滚动在处理用户快速滚动时，底层是如何监听更新并保证页面流畅度、不掉帧的？针对 AI 对话的流式渲染，在技术选型时为什么要选择 SSE 而不是 WebSocket？结合 Markdown IT 工具，前端打字机效果具体是如何处理数据拼接和渲染的？你目前实现的打字机效果，是根据服务端响应的数据块增量渲染，还是真正做到逐字渲染的？假设后端逻辑不变，要求前端调整成“带有光标且挨个字匀速吐出”的真实打字机效果，你会怎么调整架构设计？如果这个 AI 对话平台要做到支持一万个用户同时在线，从前端或服务端的架构...

查看17道真题和解析

点赞评论收藏

分享

02-23 16:52

华南理工大学自然语言处理

实习找不到，学习学不会

大二小登简历求拷打

牛客51274894...：照片认真的吗，找个专门拍证件照的几十块钱整端正点吧，要不就别加照片

点赞评论收藏

分享

03-27 15:31

已编辑

门头沟学院前端工程师

前端Agent面试全攻略，个人总结，供参考

本文面向前端Agent面试备考，系统拆解前端Agent四大核心模块（LLM核心引擎、工具调用、记忆存储、ReAct编排），梳理各模块面试高频考点与易错点，补充考点对应表、Mermaid架构图，详解前端场景下Agent工程落地关键，助力考生快速掌握核心考点，应对面试中的原理、实战类提问。前端Agent面试高频考点对应表LLM核心引擎（前端适配）1. 前端调用LLM模型的选型与优化；2. 前端Prompt工程实战；3. 上下文Token控制前端场景下模型适配（轻量化、请求效率）、Prompt编写技巧忽略前端Token限制，Prompt冗余工具调用（前端场景）1. 前端Agent常用工具封装；2. ...

查看24道真题和解析

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你觉得大几开始实习最合适？ #

13715次浏览 140人参与

# uu们，春招你还来吗？ #

51932次浏览 272人参与

# 厦门银行科技岗值不值得投 #

13531次浏览 311人参与

# 面试被问到不会的问题，你怎么应对？ #

11792次浏览 115人参与

# 面试中，你被问过哪些奇葩问题？ #

92011次浏览 871人参与

# 做完笔试后你收到面试了吗？ #

12996次浏览 139人参与

# 开放七大实习专项，百度暑期实习值得冲吗 #

33260次浏览 599人参与

# 你都用vibe coding做过什么？ #

8266次浏览 308人参与

# AI Coding实战技巧 #

7097次浏览 145人参与

# 2023年不发年终奖的公司盘点 #

30169次浏览 171人参与

# 七猫笔试 #

6288次浏览 46人参与

# 你现在一天AI几次？ #

6253次浏览 76人参与

# 你见过哪些招聘隐形歧视？ #

9666次浏览 86人参与

# Vibe Coding 会干掉初级岗位吗？ #

11708次浏览 153人参与

# 26届春招投递记录 #

1386次浏览 21人参与

# 大厂实习和小厂实习最大的区别是什么？ #

22883次浏览 165人参与

# 如果人生可以debug你会改哪一行? #

5121次浏览 92人参与

# 机械人你知道哪些单休企业 #

101693次浏览 474人参与

# 牛友の3月总结 #

16344次浏览 142人参与

# 四大天坑是哪四家？ #

111059次浏览 239人参与

# Claude Code泄露源码 #

5195次浏览 81人参与

# 秋招OC许愿 #

425123次浏览 2705人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务