Qwen3 Embedding 与 BGE 有什么区别?

🌟Encoder 架构的词嵌入模型
数据格式:[ CLS ]句子 A [ SEP ]句子 B [ SEP ]并行计算:同时感知上下文,计算速度快向量表示: Encoder 会在输入的最前面加一个特殊的[ CLS ]标记。在经过计算后使得[ CLS ]标记向量能够代表整句话的含义
Qwen3 Embedding 基于Qwen3模型,嵌入模型将单个文本段作为输入,用[ EOS ]标记所对应的向量代表整句话的向量。
Qwen3 Embedding 的训练过程
1.使用大合成数据进行弱监督学习利用Qwen3基座模型直接合成数据,而 BGE 与E5等模型都是从开源社区收集数据。
2.利用高质量合成数据进行 SFT 对筛选出的高质量合成数据和公开监督数据集进行监督训练。
3.模型合并
将微调过程中的多个模型检查点保存,采用 slerp 技术进行模型融合,增加泛化能力。
🌟Qwen3 Embedding 的数据合成
Qwen3 Embedding 模型加入信息检索、比对挖掘、分类和文本相似度四类合成数据。
以信息检索为例
1.输入:多语种文档+候选角色
Qwen3-32B决策:选择最可能对文档感兴趣的角色、问题类型与难度(高中/大学的知识)
2.构造检索对:输入上一阶段的文档与角色,对问题类型、难度进行限制。从角色视角出发,按需求生成文档对应的自然语言查询。
🌟Qwen3 Embedding 的新用法
Qwen3 Embedding 模型的 query 前能加一个 prompt ,这个 prompt 会与 query 一起向量化。
那么我们就可以在向量化 query 前加一个 prompt :寻找写作风格相似的其他文档。
🌟总结🍊
1.训练数据不同。以前词嵌入模型采用公开数据,现在的训练数据会使用大模型加工合成,更精细可控,站在了巨人的肩膀上。
2.模型结构不同。在生成式大模型采用 Decoder 架构后,词嵌入模型也借鉴了 Decoder ,使用[ EOS ]标签对应的向量来表示句子向量。
3.训练方法改进。 Encoder 架构的训练方式是 Mask 猜词与相似度计算。而Qwen3词嵌入模型采用多阶段训练与合并结果,让模型效果更上一层楼。
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论

相关推荐

✅一面 1.首先是自我介绍和过项目,面试官还一起探讨项目用到的方法,可行性之类的2.介绍一下 CLIP3.了解 LoRA 吗, LoRA 微调的原理是什么4.了解哪些多模态大模型,简要介绍几个5.BLIP的三个损失函数分别是什么,数据是怎样清洗的6.BLIP2相对于 BLIP 有哪些改进,BLIP3又有哪些改进7.Qwen- VL 的三个训练流程分别是什么,有什么作用8.视觉编码器和 LLM 连接时,使用BLIP2中 Q - Former 那种复杂的 Adaptor 好还是 LLaVA 中简单的 MLP 好,说说各自的优缺点9.代码:实现多头自注意力一面比较常规,几乎都是八股问题,我觉得只要了解常见的多模态大模型都问题不大,主要还是要理解各个模型设计的动机是什么,这也是面试最喜欢考察的✅二面1.自我介绍和过项目,简要问了项目中使用某些方法的动机,以及是否会导致其他的问题2.了解 Transformer 吗,编码器和解码器的注意力有什么区别,在计算注意力中时除以 dk \ sqrt { d _ k }\ sqrt [ d _ k }的原因是什么3.后来有哪些比较经典的基于 Transformer 的语言模型, Qwen 相比于原始 Transformer 有哪些结构上的改动,Qwen2又有哪些改进4.了解 RLHF 吗, DPO 和 PPO 有什么区别, Loss 是什么样的,各自的优缺点是什么5.介绍一下 CLIP ,还了解什么其他的对比学习方法6.开放题:了解哪些多模态大模型,目前多模态大模型最的问题是什么7.代码:1143.最长公共子序列二面其实也偏常规,几乎也都是八股问题,但是也考察了一些对模型的理解以及知识面的广度,整体来说比一面的难度大一些✅三面:1.自我介绍,然后详细过了一下项目2.了解哪些大模型和多模态大模型,然后就聊了大模型这一路是怎么发展过来的,Transformer 、 BERT 、 GPT 、 LLaMA 、 Qwen ix ,以及当时的o1推理模型3.平常有尝试过训练过大模型吗,规模小一点的也没关系4.聊天,包括职业规划等等三面比较轻松,面试官说知识点前面两面都考察过了,三面就轻松一些,大概40来分钟吧📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务