挖掘文本的奇妙力量:传统与深度方法探索匹配之道 文本向量表示咋做?文本匹配任务用哪个模型效果好? 许多 NLP 任务的成功离不开训练优质有效的文本表示向量。特别是文本语义匹配(Semantic Textual Similarity,如 paraphrase 检测、QA 的问题对匹配)、文本向量检索(Dense Text Retrieval)等任务。 1. 传统方法:基于特征的匹配 基于 TF-IDF、BM25、Jaccord、SimHash、LDA 等算法抽取两个文本的词汇、主题等层面的特征,然后使用机器学习模型(LR, xgboost)训练分类模型 优点:可解释性较好 缺点:依赖人工寻找特...