首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
Alexnoodles
北京工业大学 自然语言处理
发布于安徽
关注
已关注
取消关注
@汀丶人工智能:
人工智能自然语言处理:N-gram和TF-IDF模型详解
人工智能自然语言处理:N-gram和TF-IDF模型详解1.N-gram 模型N-Gram 是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为 N 的滑动窗口操作,形成了长度是 N 的字节片段序列。每一个字节片段称为 gram,对所有 gram 的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键 gram 列表,也就是这个文本的向量特征空间,列表中的每一种 gram 就是一个特征向量维度。该模型基于这样一种假设,第 N 个词的出现只与前面 N-1 个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计 N 个词同时出现的次数得到。常用的是二元的 Bi-Gram 和三元的 Tri-Gram。当 n=1 时,一个一元模型为:当 n=2 时,一个二元模型为:当 n=3 时,一个三元模型为:一个 n-gram 是 n 个词的序列:一个 2-gram(bigram 或二元)是两个词的序列,例如 “I love”;一个 3-gram(trigram 或三元)是三个词的序列,例如 “I love you”。需要注意的是,通常 n-gram 即表示词序列,也表示预测这个词序列概率的模型。假设给定一个词序列(w1,w2,···,wm),根据概率的链式法则,可得公式 (1.1):公式(1.1)右边的 P(wi | w1,w2,···,wi-1)表示某个词 wi 在已知句子 w1,w2,···,wi-1 后面一个词出现的概率1.1 马尔科夫假设 在实践中,如果文本的长度较长时,公式(1.1)右边的 的估算会非常困难,因此需要引入马尔科夫假设。 马尔科夫假设是指,每个词出现的概率只跟它前面的少数几个词有关。比如,二阶马尔科夫假设只考虑前面两个词,相应的语言模型是三元(trigram)模型。应用了这个假设表明当前这个词仅仅跟前面几个有限的词有关,因此也就不必追溯到最开始的那个词,这样便可以大幅缩减上述算式的长度。基于马尔科夫假设,可得公式 (1.2):当 n = 1 时称为一元模型(unigram model),公式(1.2)右边会演变成 P(wi),此时,整个句子的概率为:当 n = 2 时称为二元模型(bigram model),公式(1.2)右边会演变成 P(wi | wi-1),此时,整个句子的概率为:当 n = 3 时称为三元模型(trigram model),公式(1.2)右边会演变成 P(wi| wi-2,wi-1),此时,整个句子的概率为:估计 n-gram 模型概率采用极大似然估计(maximum likelihood estimation,MLE)。即通过从语料库中获取计数,并将计数归一化到(0,1),从而得到 n-gram 模型参数的极大似然估计。即:其中 表示文本序列,在语料库中出现的次数。1.2 N-gram 模型优缺点总结下基于统计的 n-gram 语言模型的优缺点:优点:采用极大似然估计,参数易训练;完全包含了前 n-1 个词的全部信息;可解释性强,直观易理解;缺点:缺乏长期依赖,只能建模到前 n-1 个词;随着 n 的增大,参数空间呈指数增长;数据稀疏,难免会出现 OOV 词(out of vocabulary)的问题;单纯的基于统计频次,泛化能力差2.TF-IDFTF-IDF(term frequency-inverse document frequency,词频 - 逆向文件频率) 是一种用于信息检索 (information retrieval)) 与文本挖掘 (text mining) 的常用加权技术。它是一种统计方法,用以评估一个字或词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。在信息检索 (Information Retrieval)、文本挖掘(Text Mining) 以及自然语言处理 (Natural Language Processing) 领域,TF-IDF 算法都可以说是鼎鼎有名。虽然在这些领域中,目前也出现了不少以深度学习为基础的新的文本表达和算分 (Weighting) 方法,但是 TF-IDF 作为一个最基础的方法,依然在很多应用中发挥着不可替代的作用。TF-IDF 的主要思想是:如果某个单词在一篇文章中出现的频率 TF 高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF(全称 TermFrequency),中文含义词频,即关键词出现在网页当中的频次。IDF(全称 InverseDocumentFrequency),中文含义逆文档频率,即该关键词出现在所有文档里面的一种数据集合。TF-IDF 的计算过程为:第一步,计算词频。词频(TF)= 文章的总词数某个词在文章中的出现次数或者词频(TF)= 该文出现次数最多的词出现的次数某个词在文章中的出现次数第二步,计算逆文档频率。逆文档频率(IDF)=log(包含该词的文档数 +1 语料库的文档总数)如果一个词越常见,那么分母就越大,逆文档频率就越小越接近 0。分母之所以要加 1,是为了避免分母为 0(即所有文档都不包含该词)。log 表示对得到的值取对数。第三步,计算 TF-IDF。TF−IDF= 词频(TF)× 逆文档频率(IDF)可以看到,TF-IDF 与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。所以,自动提取关键词的算法就是计算出文档的每个词的 TF-IDF 值,然后按降序排列,取排在最前面的几个词。2.1 TF-IDF 算法总结TF-IDF 算法是一种常用的文本特征表示方法,用于评估一个词对于一个文档集或语料库中某个文档的重要程度,常用于以下领域:(1)搜索引擎;(2)关键词提取;(3)文本相似性;(4)文本摘要。TF-IDF 算法优点:简单有效:TF-IDF 算法简单易实现,计算速度快,并且在很多文本相关任务中表现良好。考虑词频和文档频率:TF-IDF 综合考虑了词频和文档频率两个因素,可以准确表示词语在文档中的重要性。强调关键词:TF-IDF 算法倾向于给予在文档中频繁出现但在整个语料库中较少见的词更高的权重,从而能够突出关键词。适用性广泛:TF-IDF 算法可以应用于各种文本相关任务,如信息检索、文本分类、关键词提取等。TF-IDF 算法缺点:无法捕捉语义信息:TF-IDF 算法仅根据词频和文档频率进行计算,无法捕捉到词语之间的语义关系,因此在处理一些复杂的语义任务时可能效果有限。忽略词序信息:TF-IDF 算法将文本表示为词语的集合,并忽略了词语之间的顺序信息,因此无法捕捉到词语顺序对于文本含义的影响。对文档长度敏感:TF-IDF 算法受文档长度的影响较大,较长的文档可能会有较高的词频,从而影响到特征权重的计算结果。词汇表限制:TF-IDF 算法需要构建词汇表来对文本进行表示,词汇表的大小会对算法的性能和计算开销产生影响,同时也可能存在未登录词的问题。主题混杂问题:在包含多个主题的文档中,TF-IDF 算法可能会给予一些频繁出现的词较高的权重,导致提取的关键词并不完全与文档主题相关。3.关键知识点总结:在N-gram模型中,N表示表示每次取出的单词数量在N-gram模型中,当N取值越大,模型的效果会不一定变得更好(要合适)N-gram模型可以用于文本分类、语音识别和机器翻译等自然语言处理任务。N-gram模型的主要优点是可以捕捉上下文信息,但缺点是无法处理未知的单词。在TF-IDF模型中,IDF值越大代表该词对文本内容的区分度越高在TF-IDF模型中,词频(TF)指的是某个词在一篇文档中出现的次数。更多优质内容请关注:汀丶人工智能;会提供一些相关的资源和优质文章,免费获取阅读。
点赞 0
评论 0
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
02-16 10:48
三一重能_机械工程师(准入职员工)
格力电器内推,格力电器内推码
格力电器硬件面经1. 个人背景介绍;2. 单片机最小构成;3. 项目底板有哪些功能;4. 复位原理;5. 电源有哪几种;6. LDO工作原理;7. LDO效率多大;8. 反激变换器;9. 研究生阶段学过哪些硬件课程;10. 工作地点在珠海怎么看;11. 有接触过电机相关的吗;12. MOS导通条件;13. 反问。格力电器26届春招2月6日正式启动啦!企业简介:作为世界500强企业,格力电器现已发展成为多元化、科技型的全球工业制造集团,产业覆盖家用消费品和工业装备两大领域。【福利待遇】人才公寓及家属过渡房、免费通勤班车、无限流量免费电话卡、科技进步奖、周末双休、健康体检、年休假、五险一金及丰富津...
点赞
评论
收藏
分享
02-16 08:41
蚌埠坦克学院 嵌入式软件开发
影石-嵌入式软件开发-一面
1. 描述一下Linux驱动中字符设备的注册流程和核心数据结构?答案:核心结构:cdev结构体、file_operations操作集关键步骤:分配设备号(静态register_chrdev_region或动态alloc_chrdev_region)初始化cdev并添加到系统实现file_operations(open、read、write、ioctl、release等)创建设备节点(手动mknod或通过udev)注册流程:register_chrdev_region → cdev_init → cdev_add卸载流程:cdev_del → unregister_chrdev_region2....
查看15道真题和解析
点赞
评论
收藏
分享
02-04 10:04
四川轻化工大学 Java
27届后端开发已读不回,求简历指正
双非二本目前大三,想找实习,这简历有什么问题吗,boss都是已读不回😭
点赞
评论
收藏
分享
2025-12-25 11:08
西北农林科技大学 C++
从我身边的情况来看,实习和不实习差距真的很大。身边实习的基本都能去T0,T1级以上的大厂,工资起码55w。没去实习的,就只能去一些国企,小厂,工资还没有超过25w的。
雾凇岛:
没有55w哪里能补
一人说一个提前实习的好处
点赞
评论
收藏
分享
01-27 15:00
库洛游戏_HR(准入职员工)
步步高内推,步步高内推码
步步高实验学校 2026届校招启动啦【学校简介】东莞市步步高实验学校于 2023 年投入运营,占地 230 亩,是一所集幼儿园、小学、初中、高中于一体的十五年一贯制非营利性高端民办学校,学校全面实行小班化教学,学校师生比为 1:5;步步高教育专家团队由来自一流大学的国家课标专家、教育学家,来自著名学校的卓越校长,来自一线、有着丰富教学经验的著名特级教师,以及来自国家级教育媒体的教育策划专家共同组成,为步步高的课程、教学、管理奠定了坚实基础。【招聘岗位】• 幼儿园、小学部及初中部各学科类教师 & 国际教师,类别多多,等你pick! 【福利待遇】• 薪资:幼儿园老师年收入16万起 、中小学...
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
嵌入式应届生春招怎么准备——从零到拿 Offer 的系统攻略
972
2
...
关于租房
537
3
...
27届实习近一年的年度经历和总结
489
4
...
HTTP 和 HTTPS 区别
462
5
...
agent实习都干什么?prompt设计
318
6
...
美团推荐算法一面
252
7
...
这个简历可以去找暑期实习了吗
252
8
...
大三无实习
251
9
...
追一科技 C++ 一面
240
10
...
得力嵌入式工程师 二面 面经
220
创作者周榜
更多
正在热议
更多
#
牛客新年AI问运
#
13969次浏览
168人参与
#
你最讨厌面试被问什么
#
1272次浏览
26人参与
#
牛客AI体验站
#
17869次浏览
302人参与
#
有转正机会的小厂实习值得去吗?
#
590次浏览
19人参与
#
牛友们,签完三方你在忙什么?
#
137389次浏览
993人参与
#
担心入职之后被发现很菜怎么办
#
282510次浏览
1185人参与
#
如何缓解入职前的焦虑
#
258865次浏览
1451人参与
#
校招第一份工作你干了多久?
#
139403次浏览
609人参与
#
去年的flag与今年的小目标
#
34298次浏览
337人参与
#
牛客租房专区
#
151439次浏览
1480人参与
#
秋招开始捡漏了吗
#
229463次浏览
1044人参与
#
九月了,是考研还是就业?
#
89297次浏览
557人参与
#
秋招投递攻略
#
268791次浏览
2553人参与
#
这份实习,有没有动摇过你的职业方向?
#
2204次浏览
40人参与
#
搜狐工作体验
#
4119次浏览
29人参与
#
机械人求职现状
#
33649次浏览
297人参与
#
我是XXX,请攻击我最薄弱的地方
#
61792次浏览
410人参与
#
用友工作体验
#
18084次浏览
151人参与
#
你的工资什么时候发?
#
57480次浏览
355人参与
#
你的实习什么时候入职
#
348087次浏览
2291人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务