面试官:Qwen3 Rerank 有什么改进?

1️⃣重排序方法
1.Point- wise :将每个文档与查询的相关性独立建模,转化为二分类或回归问题,不直接考虑文档间的顺序关系
2. Pair - wise :判断文档 A 是否比文档 B 更相关,通过优化文档对的顺序正确性来实现排序
3.List- wise :输入整个文档列表,直接优化排序指标,考虑文档在列表中的位置权重Qwen3 Rerank 基于Qwen3推理大语模型,使用 point - wise 方法将每个候选项与查询进行单独评估。
2️⃣Qwen3 Rerank 数据合成
Qwen3 Rerank 模型加入信息检索、比对挖掘、分类和文本相似度四类合成数据。
以信息检索为例
1.输入:多语种文档+候选角色
2.Qwen3-32B决策:选择最可能对文档感兴趣的角色、问题类型与难度(高中/大学的知识)
3.构造检索对:输入上一阶段的文档与角色,对问题类型、难度进行限制。从角色视角出发,按需求生成文档对应的自然语言查询。
4.高质量数据:对每一对数据计算 cosine 相似度,选择相似度大于0.7的数据作为高质量数据。
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论

相关推荐

------------------------------------题目一:题目大意:有 n (1 <= n <= 2e5) 颗宝石,每颗有能量值 ai (-n <= ai <= n)。你可以执行任意次“融合”操作:选择两颗宝石 i 和 j,将 j 的能量转移给 i (ai = ai + aj, aj = 0)。目标是最大化所有位置的前缀最大能量值之和,即 sum(max(a1, ..., ai)) for i=1 to n。(T 组数据, 1 <= T <= 1e4)解法思路:关键在于理解融合操作的本质是能量的自由分配。为了最大化前缀最大值之和,最优策略是创造一个尽可能大的数,并放在首位。如果数组中存在正数,就把所有正能量的宝石融合到第一颗上,使其能量变为所有正数之和,其余位置变为0或负数。这样每个前缀的最大值都是这个正数之和。如果所有宝石能量都是非正数,若 n>1,则可以通过融合操作造出一个0,使前缀最大值变为0;若 n=1,则无法操作,答案就是其本身的负能量值。------------------------------------题目二:题目大意:在一片 n x n (2 <= n, m <= 1e6) 的森林中,有 m 名探险者和 n 个救援站。救援站位于对角线 (i, i) 上,每个站只能救一人。探险者会去距离自己最近(曼哈顿距离)的救援站。如果有多个最近的,他们会协调分配以最大化获救人数。求最多能获救的人数。解法思路:此题可转化为区间选点问题。对于一个在 (x, y) 的探险者,其到对角线上救援站 (k, k) 的曼哈顿距离为 |x-k| + |y-k|。可以发现,当 k 落在 [min(x,y), max(x,y)] 区间内时,距离是最小且恒定的。因此,每个探险者对应一个可选的救援站区间。问题就变成了:有 m 个区间,n 个点,每个点最多被一个区间选择,求最多能满足多少个区间。这是一个经典的贪心问题:将所有区间按右端点升序排序,然后遍历区间,为每个区间贪心地分配其范围内最靠左的可用救援站。使用并查集可以高效地找到下一个可用的位置。------------------------------------题目三:题目大意:有 n (1 <= n, q <= 1e5) 个魔法水晶,能量为 ai (1 <= ai <= 1e5)。需要处理 q 次操作,操作分两种:1. 将第 i 个水晶的能量修改为 x;2. 查询区间 [l, r] 内所有水晶能量的波动度(方差)。方差定义为 (1/m) * sum((bi - mean)^2)。解法思路:直接计算方差涉及均值,不便于用数据结构维护。关键是对方差公式进行数学变换:Var(X) = E(X^2) - (E[X])^2。对于一个区间,这等价于`(区间平方和 / 区间长度) - (区间和 / 区间长度)^2`。这样,我们只需要维护区间的和与区间的平方和。这可以用两个树状数组(或线段树)来高效实现:一个树状数组维护 `sum(ai)`,另一个维护 `sum(ai^2)`。单点修改时,在这两个树状数组上都进行更新。区间查询时,分别查出区间和与区间平方和,再代入公式计算即可。具体的详细代码和题解可以戳我主页的文章查看
投递阿里巴巴集团等公司10个岗位
点赞 评论 收藏
分享
这SQL做的我真是
投递阿里巴巴控股集团等公司10个岗位
点赞 评论 收藏
分享
整体感觉还是挺难,选择题考察面比较广,包括概率论,Python, c++语法,数据库,大数据,机器学习,深度学习等。编程第一题没啥思路,暴力搜索超时(已看网上大佬解答,应该有右边界一定等于n,之后线性扫描维护两个哈希表更新最优解即可求解,关键没看出来右边界这个事,em还是刷题少);第二题还好有点思路,用滑动窗口+两个单调队列求解即可。贴一下,求进面试## 1. 选择题#### 1.1 概率轮#### 1.2 C++#### 1.3 Python#### 1.4 数据库#### 1.5 大数据#### 1.6 机器学习## 2. 编程题####  2.1 给定一个长度为n的序列,a1, a2, …, an, 在其中选择一个区间[L, R],将区间中的元素全部加1之后变成数组b,求最大化逆序对差 inv(a)-inv(b),逆序对满足性质i<j, ai>aj。​分析:任意选择一个区间[L, R],将其中元素加1之后,选定区间中的逆序对数量不变,但是可以会导致R之后序列中逆序对的数量增加,**因此R一定取值为n**。之后我们需要确定区间左边界L的值;区间中元素加1之后,会使得[0, L-1]中逆序对的数量减少,因此我们只需要**求一个左边界L使得序列a中的逆序对减少量最大**。​为了完成上述任务,我们需要两个哈希表,哈希表1用于记录a序列中每一个元素左边元素x出现的次数;哈希表2用于记录a序列中每一个元素右边元素x出现的次数;之后遍历a序列,同时动态更新最大可以减少的逆序对的数量,记录最大减少量即为最优解。#### 2.2 在一场跳水比赛中,共有n位裁判依次为选手打分(打分为非负整数)。根据比赛规则,需要从所有裁判的打分中,选取连续的m个打分来计算选手的最终成绩。具体计算方式为:从这m个打分里去掉1个最高分和1个最低分,最后取剩余分数的平均值作为该选手的最终成绩。现在需要找到所有可能的连续m个打分区间中,最终成绩最高的那个区间,并输出该区间的起始裁判编号(从1开始计数)。如果有多个区间的最终成绩相同,输出起始编号最小的那个。​分析:对每个长度为 m 的连续区间,最终成绩$$\text{avg}=\frac{\text{sum} - \text{max} - \text{min}}{m-2}$$​因为 $m$固定,比较谁更大只需比较 **分子**$\text{sum}-\text{max}-\text{min}$。用两个 **单调队列** 分别维护窗口内的最大值与最小值(同时维护窗口总和)。这样每次滑动只需均摊 O(1) 时间。
投递京东等公司10个岗位
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务