【机器学习】N-gram模型计算举例
本文为自我总结。
N-gram模型是一种简单的统计语言模型。通常n的取值范围为1~3,分别称为unigram、bigram、tirgram。
N-gram模型是通过对语料库中连续词的频数统计,采用条件概率的形式,计算出所给语句的概率,从而判断该语句是否高概率出现的方法。
1.unigram的计算
unigra模型假定所有单词之间相互独立。
那么语句"w1 w2 ... wm"的概率为:
例,我们有三条语句:
doc1:John read Moby Dick.
doc2:Mary read a different book.
doc3:She read a book by Cher.
采用unigram模型计算语句"John read a book."的概率。
![]()
- 注:unigram模型不用考虑开头和结尾。
2.bigram的计算
bigram模型开始考虑条件概率,即已知前一个词,后一个词出现的概率。
接上例,
![]()
- 注:不要漏掉开头和结尾的部分。
3.trigram的计算
即已知前两个词,后一个词出现的条件概率。
接上例,
![]()