人工智能自然语言处理：N-gram和TF-IDF模型详解_牛客网

北京工业大学自然语言处理发布于安徽

关注

@汀丶人工智能：人工智能自然语言处理：N-gram和TF-IDF模型详解

人工智能自然语言处理：N-gram和TF-IDF模型详解1.N-gram 模型N-Gram 是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为 N 的滑动窗口操作，形成了长度是 N 的字节片段序列。每一个字节片段称为 gram，对所有 gram 的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键 gram 列表，也就是这个文本的向量特征空间，列表中的每一种 gram 就是一个特征向量维度。该模型基于这样一种假设，第 N 个词的出现只与前面 N-1 个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计 N 个词同时出现的次数得到。常用的是二元的 Bi-Gram 和三元的 Tri-Gram。当 n=1 时，一个一元模型为：当 n=2 时，一个二元模型为：当 n=3 时，一个三元模型为：一个 n-gram 是 n 个词的序列：一个 2-gram（bigram 或二元）是两个词的序列，例如 “I love”；一个 3-gram（trigram 或三元）是三个词的序列，例如 “I love you”。需要注意的是，通常 n-gram 即表示词序列，也表示预测这个词序列概率的模型。假设给定一个词序列（w1，w2，···，wm），根据概率的链式法则，可得公式 (1.1)：公式（1.1）右边的 P（wi | w1，w2，···，wi-1）表示某个词 wi 在已知句子 w1，w2，···，wi-1 后面一个词出现的概率1.1 马尔科夫假设 在实践中，如果文本的长度较长时，公式（1.1）右边的 的估算会非常困难，因此需要引入马尔科夫假设。  马尔科夫假设是指，每个词出现的概率只跟它前面的少数几个词有关。比如，二阶马尔科夫假设只考虑前面两个词，相应的语言模型是三元（trigram）模型。应用了这个假设表明当前这个词仅仅跟前面几个有限的词有关，因此也就不必追溯到最开始的那个词，这样便可以大幅缩减上述算式的长度。基于马尔科夫假设，可得公式 (1.2):当 n = 1 时称为一元模型（unigram model），公式（1.2）右边会演变成 P(wi)，此时，整个句子的概率为：当 n = 2 时称为二元模型（bigram model），公式（1.2）右边会演变成 P(wi | wi-1)，此时，整个句子的概率为：当 n = 3 时称为三元模型（trigram model），公式（1.2）右边会演变成 P(wi| wi-2,wi-1)，此时，整个句子的概率为：估计 n-gram 模型概率采用极大似然估计（maximum likelihood estimation，MLE）。即通过从语料库中获取计数，并将计数归一化到（0，1），从而得到 n-gram 模型参数的极大似然估计。即：其中表示文本序列，在语料库中出现的次数。1.2 N-gram 模型优缺点总结下基于统计的 n-gram 语言模型的优缺点：优点：采用极大似然估计，参数易训练；完全包含了前 n-1 个词的全部信息；可解释性强，直观易理解；缺点：缺乏长期依赖，只能建模到前 n-1 个词；随着 n 的增大，参数空间呈指数增长；数据稀疏，难免会出现 OOV 词（out of vocabulary）的问题；单纯的基于统计频次，泛化能力差2.TF-IDFTF-IDF(term frequency-inverse document frequency，词频 - 逆向文件频率) 是一种用于信息检索 (information retrieval)) 与文本挖掘 (text mining) 的常用加权技术。它是一种统计方法，用以评估一个字或词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。在信息检索 (Information Retrieval)、文本挖掘(Text Mining) 以及自然语言处理 (Natural Language Processing) 领域，TF-IDF 算法都可以说是鼎鼎有名。虽然在这些领域中，目前也出现了不少以深度学习为基础的新的文本表达和算分 (Weighting) 方法，但是 TF-IDF 作为一个最基础的方法，依然在很多应用中发挥着不可替代的作用。TF-IDF 的主要思想是：如果某个单词在一篇文章中出现的频率 TF 高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TF（全称 TermFrequency），中文含义词频，即关键词出现在网页当中的频次。IDF（全称 InverseDocumentFrequency），中文含义逆文档频率，即该关键词出现在所有文档里面的一种数据集合。TF-IDF 的计算过程为：第一步，计算词频。词频（TF）= 文章的总词数某个词在文章中的出现次数或者词频（TF）= 该文出现次数最多的词出现的次数某个词在文章中的出现次数第二步，计算逆文档频率。逆文档频率（IDF）=log(包含该词的文档数 +1 语料库的文档总数)如果一个词越常见，那么分母就越大，逆文档频率就越小越接近 0。分母之所以要加 1，是为了避免分母为 0（即所有文档都不包含该词）。log 表示对得到的值取对数。第三步，计算 TF-IDF。TF−IDF= 词频（TF）× 逆文档频率（IDF）可以看到，TF-IDF 与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。所以，自动提取关键词的算法就是计算出文档的每个词的 TF-IDF 值，然后按降序排列，取排在最前面的几个词。2.1 TF-IDF 算法总结TF-IDF 算法是一种常用的文本特征表示方法，用于评估一个词对于一个文档集或语料库中某个文档的重要程度，常用于以下领域：（1）搜索引擎；（2）关键词提取；（3）文本相似性；（4）文本摘要。TF-IDF 算法优点：简单有效：TF-IDF 算法简单易实现，计算速度快，并且在很多文本相关任务中表现良好。考虑词频和文档频率：TF-IDF 综合考虑了词频和文档频率两个因素，可以准确表示词语在文档中的重要性。强调关键词：TF-IDF 算法倾向于给予在文档中频繁出现但在整个语料库中较少见的词更高的权重，从而能够突出关键词。适用性广泛：TF-IDF 算法可以应用于各种文本相关任务，如信息检索、文本分类、关键词提取等。TF-IDF 算法缺点：无法捕捉语义信息：TF-IDF 算法仅根据词频和文档频率进行计算，无法捕捉到词语之间的语义关系，因此在处理一些复杂的语义任务时可能效果有限。忽略词序信息：TF-IDF 算法将文本表示为词语的集合，并忽略了词语之间的顺序信息，因此无法捕捉到词语顺序对于文本含义的影响。对文档长度敏感：TF-IDF 算法受文档长度的影响较大，较长的文档可能会有较高的词频，从而影响到特征权重的计算结果。词汇表限制：TF-IDF 算法需要构建词汇表来对文本进行表示，词汇表的大小会对算法的性能和计算开销产生影响，同时也可能存在未登录词的问题。主题混杂问题：在包含多个主题的文档中，TF-IDF 算法可能会给予一些频繁出现的词较高的权重，导致提取的关键词并不完全与文档主题相关。3.关键知识点总结：在N-gram模型中，N表示表示每次取出的单词数量在N-gram模型中，当N取值越大，模型的效果会不一定变得更好（要合适）N-gram模型可以用于文本分类、语音识别和机器翻译等自然语言处理任务。N-gram模型的主要优点是可以捕捉上下文信息，但缺点是无法处理未知的单词。在TF-IDF模型中，IDF值越大代表该词对文本内容的区分度越高在TF-IDF模型中，词频（TF）指的是某个词在一篇文档中出现的次数。更多优质内容请关注：汀丶人工智能；会提供一些相关的资源和优质文章，免费获取阅读。

点赞 0

评论 0

全部评论

推荐最新楼层

04-25 13:28

腾讯_HR(准入职员工)

腾讯云智研发内推-腾讯云智研发内推

真实体验是有超好的导师制定成长计划，全程辅导，各种腾讯内部学习网站和资料，上下班班车接送，然后基本一月团建一次。工作压力中等，百分之70情况能6点多下班，其他情况一般在8点左右。早投递，早筛选，早拿offer.！！！敲重点 用我的内推码投递后一定要评论区留言mark一下，以后好找我查进度，我秋招就是随便填别人的内推码，后来查进度都不知道找谁。惨痛的经历。#腾讯集团旗下｜云智研发公司25届春招补录&26届暑期实习开始！【公司简介】云智研发公司是腾讯旗下的子公司，公司坚持投资区域书，布局研发人才，聚集云和智慧产业基础产品和行业标准产昂的研发。推进云与产业互联网战略落地，助力产业数字化转型升...

腾讯公司福利 646人发布

点赞评论收藏

分享

04-26 15:17

已编辑

湖南工商大学 Java

双非初见白月光之学习路线分享

白月光是腾讯，作为一个弱双非，我目前接到了腾讯总部测试和质量管理、腾讯云智后台开发的offer，跟大家分享下我的学习路线！我是从去年12月开始学Javaweb的，我历时5个月，很多人说我学的很快，我直接把自己的大学四年的学习历程分享给大家，给牛友们参考（计算机届伟大的开源精神）！学习路线一定要结合具体背景，我直接给大家从我高考完开始讲我的学习路线，另外技术路线是Javaweb、苍穹外卖、redis、SpringCloud、顺风车项目、背八股，核心方法是和朋友每天去图书馆卷，但是其实日均学习5h多，难度不大。我的大学三年高考：22年高考511分，上了湖工商，我不甘心，于是大一下定决心一定要拿专业...

双非阴暗爬行：像湘姐这种豪杰，一万个里面能出一个都算好的了

大三一本的面经秋招白月光

点赞评论收藏

分享

04-21 21:33

江苏财经职业技术学院网络工程师

简历一直在优化，为什么越优越少

Cherrycola01：0实习 0项目约等于啥也没有啊哥们儿这简历认真的吗

点赞评论收藏

分享

03-26 21:41

浙江大学城市学院 Java

做梦都想去携程，快捞我面试😭😭😭

永远年轻_永远热泪盈眶：咱们真是苦难哥俩，我是浙大宁理，你是浙大城院，测试学历卡得不严，之前携程实习，只能说确实wlb

，但携程学历厂，当时我mentor面试官，给我们看了他面试的六个人，全是研究生，学历最烂的一个都是杭电研究生，复旦华科一堆

点赞评论收藏

分享

昨天 17:27

开封大学区块链

遇到了讨厌的房东

提前了两个月跟他说准备走，结果他立马就把房子放上网……估计是有人要了，今天还让我最好能早点走。这也太离谱了，我这还没走呢，咋办啊

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 找工作，行业重要还是岗位重要？ #

6509次浏览 84人参与

# 盲审过后你想做什么？ #

12216次浏览 107人参与

# 五一之后，实习真的很难找吗？ #

43745次浏览 311人参与

# 领导秒批的请假话术 #

9398次浏览 72人参与

# 安克创新求职进展汇总 #

32429次浏览 412人参与

# 如果不工作真的会快乐吗 #

100770次浏览 860人参与

# 每人推荐一个小而美的高薪公司 #

72780次浏览 1357人参与

# 京东工作体验 #

12921次浏览 90人参与

# 五一假期，你打算“躺”还是“卷”？ #

24241次浏览 386人参与

# 考研可以缓解求职焦虑吗 #

20264次浏览 241人参与

# 如何缓解入职前的焦虑 #

171497次浏览 1267人参与

# 面试等了一周没回复，还有戏吗 #

115101次浏览 1072人参与

# 找工作前vs找工作后的心路变化 #

7069次浏览 64人参与

# 应届生薪资多少才合理？ #

3021次浏览 24人参与

# 写简历别走弯路 #

713933次浏览 7848人参与

# 你喜欢工作还是上学 #

37213次浏览 407人参与

# 如果有时光机，你最想去到哪个年纪？ #

43140次浏览 765人参与

# 牛友们的论文几号送审 #

27097次浏览 622人参与

# 扒一扒那些奇葩实习经历 #

41394次浏览 770人参与

# 24届的你们现状如何了？ #

64449次浏览 377人参与

牛客网
牛客企业服务