1 文本Embedding 将整个文本转化为实数向量的技术。 Embedding优点是可将离散的词语或句子转化为连续的向量,就可用数学方法来处理词语或句子,捕捉到文本的语义信息,文本和文本的关系信息。 ◉ 优质的Embedding通常会让语义相似的文本在空间中彼此接近 ◉ 优质的Embedding相似的语义关系可以通过向量的算术运算来表示: 2 文本Embedding模型的演进与选型 目前的向量模型从单纯的基于 NLI 数据集(对称数据集)发展到基于混合数据(对称+非对称)进行训练,即可以做 QQ召回任务也能够做 QD 召回任务,通过添加 Instruction 来区分这两类任务,只有在...