【机器学习】N-gram模型计算举例

本文为自我总结。

N-gram模型是一种简单的统计语言模型。通常n的取值范围为1~3,分别称为unigram、bigram、tirgram。
N-gram模型是通过对语料库中连续词的频数统计,采用条件概率的形式,计算出所给语句的概率,从而判断该语句是否高概率出现的方法。

1.unigram的计算
unigra模型假定所有单词之间相互独立。
那么语句"w1 w2 ... wm"的概率为:
图片说明

例,我们有三条语句:
doc1:John read Moby Dick.
doc2:Mary read a different book.
doc3:She read a book by Cher.
采用unigram模型计算语句"John read a book."的概率。

图片说明

  • 注:unigram模型不用考虑开头和结尾。

2.bigram的计算
bigram模型开始考虑条件概率,即已知前一个词,后一个词出现的概率。
图片说明

接上例,
图片说明

  • 注:不要漏掉开头和结尾的部分。

3.trigram的计算

即已知前两个词,后一个词出现的条件概率。
图片说明

接上例,
图片说明

全部评论

相关推荐

点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务