首页 > 试题广场 >

什么是中文分词? 列举出几种你所知的分词方法。

[问答题]
什么是中文分词? 列举出几种你所知的分词方法。
由于中文文本不像英文一样有空格分割各个具有明确语义的单词,中文所有的词语都没有分隔符,只有句子和段落之间存在分割。因此,在进行NLP任务时,我们需要进行中文分词,以便于获得句子的词语构成,更加精确地描述语义。

主要有三大主流的分词方法:基于词典的方法、基于规则的方法和基于统计的方法。

  • 词典或规则:
    基于已有词典 ,根据匹配类型不同而划分,有最大匹配法等。
  • 统计:
    1.组成词语的字可能多次同时出现的可能性最大而形成的N-gram模型
    2.将词语构成看成是标注问题而出现的隐马尔科夫链、条件随机场等模型。

发表于 2020-10-31 12:06:41 回复(0)