面试官:Qwen3 Rerank 的改进
Qwen3 Rerank 基于Qwen3推理大语言模型,使用 point - wise 方法将每个候选项与查询进行单独评估。
但是它不是让其最后一层出一个 logit 分数,而是用 system prompt 来引导 rerank 模型生成 yes / no 的 token ,然后查询词表中 yes 和 no 的 token 生成概率计算得分:
1️⃣Qwen3 Rerank 模型的训练没有使用合成数据进行弱监督学习
2️⃣利用高质量合成数据进行 SFT 对筛选出的高质量合成数据和公开监督数据集进行监督训练。
3️⃣模型合并。将微调过程中的多个模型检查点保存,采用 slerp 技术进行模型融合,增加泛化能力。
4️⃣数据合成。加入信息检索、比对挖掘、分类和文本相似度四类合成数据。
5️⃣构造检索对:输入上一阶段的文档与角色,对问题类型、难度进行限制。从角色视角出发,按需求生成文档对应的自然语言查询。
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
但是它不是让其最后一层出一个 logit 分数,而是用 system prompt 来引导 rerank 模型生成 yes / no 的 token ,然后查询词表中 yes 和 no 的 token 生成概率计算得分:
1️⃣Qwen3 Rerank 模型的训练没有使用合成数据进行弱监督学习
2️⃣利用高质量合成数据进行 SFT 对筛选出的高质量合成数据和公开监督数据集进行监督训练。
3️⃣模型合并。将微调过程中的多个模型检查点保存,采用 slerp 技术进行模型融合,增加泛化能力。
4️⃣数据合成。加入信息检索、比对挖掘、分类和文本相似度四类合成数据。
5️⃣构造检索对:输入上一阶段的文档与角色,对问题类型、难度进行限制。从角色视角出发,按需求生成文档对应的自然语言查询。
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论
相关推荐