02-相似性检索的关键 - Embedding

1 文本Embedding

将整个文本转化为实数向量的技术。

Embedding优点是可将离散的词语或句子转化为连续的向量,就可用数学方法来处理词语或句子,捕捉到文本的语义信息,文本和文本的关系信息。

◉ 优质的Embedding通常会让语义相似的文本在空间中彼此接近

◉ 优质的Embedding相似的语义关系可以通过向量的算术运算来表示:

2 文本Embedding模型的演进与选型

目前的向量模型从单纯的基于 NLI 数据集(对称数据集)发展到基于混合数据(对称+非对称)进行训练,即可以做 QQ召回任务也能够做 QD 召回任务,通过添加 Instruction 来区分这两类任务,只有在进行 QD 召回的时候,需要对用户 query 添加上 Instruction 前缀。

3 VDB通用Embedding模型

模型选择:

GPU资源:

4 VDB垂类Embedding模型

用户提供垂类文档数据,VDB对模型进行微调,助力垂类应用效果更进一步。

优化1:对比学习拉近同义文本的距离,推远不同文本的距离

优化2:短文本匹配和长文本匹配使用不同prompt,提升非对称类文本效果

优化3:预训练阶段提升基座模型面向检索的能力,对比学习阶段提高负样本数

5 存储、检索向量数据

5.1 为啥需要一个专用的向量数据库

  1. 查询方式与传统数据库存在区别
  2. 简单易用,无需关心细节
  3. 为相似性检索设计,天生性能优势

5.2 腾讯云向量数据库的优势

“首家”:

  • 通过信通院的标准化性能和规模测试
  • 支持千亿级向量规模和最高500W QPS

自研:

  • 内核源自集团自研OLAMA引擎
  • 内部已有**40+**业务接入

性价比:

  • 性能领先业内平均水平1.5
  • 同时客户成本降低20%

6 VDB优势

流程简化

模型简化:

共享GPU集群:

全部评论

相关推荐

不愿透露姓名的神秘牛友
07-04 14:23
steelhead:你回的有问题,让人感觉你就是来学习的
点赞 评论 收藏
分享
06-12 17:46
门头沟学院 Java
运营你豪哥:来说重点: ​1.项目前置,时间倒序。​​ 2.​项目描述强化结果与量化效果(STAR原则里的R)。​​ ​3.个人技能精炼,明确掌握程度,突出核心。​​ ​4.增加强有力开头的个人总结部分。​​ 5.​优化教育背景(成绩排名)、合并奖项与活动。​​
听劝,我这个简历该怎么改...
点赞 评论 收藏
分享
05-16 11:16
已编辑
东华理工大学 Java
牛客73769814...:盲猜几十人小公司,庙小妖风大,咋不叫她去4️⃣呢😁
牛客创作赏金赛
点赞 评论 收藏
分享
昨天 15:14
南京大学 C++
这福利有点意思,即实际又实用,不知道大家觉得如何🤔️
芹菜是真的菜:然而mentor不喝,几个实习生相互用券连喝一周爱马哥
投递腾讯等公司7个岗位
点赞 评论 收藏
分享
评论
2
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务