字节大模型算法岗三面面经(整理答案版)

1️⃣讲一下强化学习 reward 函数设计。
 (1)可验证奖励( RLVR ):对有确定答案的任务(数学、代码),用 ground - truth 结果验证(正确+1,错误0/-1)。
(2)奖励模型( RM - based Reward ):对主观任务(对话、写作),训练 RM 从偏好数据学习打分。
(3)规则奖励:对特定安全/格式要求,用硬规则直接判断。
 2️⃣现有 Embedding 模型相比 CLIP 的区别?
(1)训练目标不同: CLIP 用 InfoNCE 做图文对比,目标是让匹配图文对相似;专用模型用 SimCSE /三元组损失/ NLI 监督/多任务,目标是精确捕捉文本语义的细粒度差异。
(2)数据质量不同:专用模型训练于高质量语义标注对,语义标注精准; CLIP 训练于网络爬取图文对,文本侧噪声大、以短标题为主,不利于文本语义建模。
(3)性能对比: MTEB 基准上, BGE - Base /E5- Base 等在文本检索、语义相似度等任务上大幅领先 CLIP ;但 CLIP 在图文检索上仍有独特优势。

 3️⃣ GRPO 和 PPO 的区别。
(1)架构差异: PPO 需要四个模型(策略模型π t _0、旧策略、奖励模型 RM 、价值模型 Critic ),显存占用大, Critic 的估计偏差还可能干扰 advantage 计算。 GRPO 只需策略模型,对每个 prompt 采样 G 个输出,用组内平均奖励作为 baseline 替代 Critic ,去掉了价值模型的全部开销。
(2) Baseline 设计: PPO 的 baseline 是 Critic 预测的状态价值; GRPO 的 baseline 是当前 prompt 下同组 G 个 rollout 的均值。
(3)适用场景: GRPO 对"组内多样性"要求高,特别适合有可验证奖励的推理任务; PPO 更通用但更复杂,适合需要精确价值估计的场景。

4️⃣大模型训练流程。
(1)预训练( Pre - training ):目标是从海量无标注文本(万亿 token 级别)学习语言统计规律和世界知识,任务是 next - token prediction 。
(2)监督微调( SFT ):用高质量( instruction , response )对让模型学会遵循指令。
(3)对齐训练( RLHF / DPO / GRPO ):让模型输出符合人类偏好,通过奖励模型反馈或直接偏好优化进一步提升质量和安全性。

 5️⃣微调大模型如何卡阈值。
可验证任务(数学/代码)用"正确性"作为硬阈值(只要正确的);生成任务用 RM 综合分数阈值。

 6️⃣为什么 CLIP 的嵌入效果不好?
①文本编码器仅支持77 tokens (基于 GPT -2架构),无法处理长文本;
② nfoNCE 对比目标只要求"匹配图文对靠近",不需要区分文本之间的细粒度语义差异,嵌入空间对文本相似度分辨能力弱;③预训练数据以互联网短标题为主,语义噪声大,文本侧质量不足;
④对文本扰动敏感(微小改动可能导致检索排序大变)。

 7️⃣[代码题]手撕了 InfoNCE 代码 InfoNCE loss 的实现﹣﹣计算相似度矩阵(点积/余弦)、温度缩放、对角线为正样本的 cross - entropy loss ,批次内负样本。
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论

相关推荐

攒人品中,祝大家都能拿到满意的Offer!1.项目拷打2生成式推荐本质上是在做隐空间到离散iD的映射,你如何证明你生成的 ID 序列保留了用户意图的最优压缩3.比如广告场景下不仅仅是预估 CTR。如果我们将生成式排序引入 GSP拍卖,大模型生成的候选列表概率分布,如何保证满足激励相容性4如果模型生成的排序导致广告主出现竞价上的博弈呢5.在H100集群上跑生成式重排,现在的瓶颈不在计算而在存储带宽。如果分阶段推理,我在Prefill阶段采用了FlashAttention-3,但在 Decoding 阶段因为 KV Cache 导致的Fragmented Memory太严重,怎么办6.推荐系统要求毫秒级响应对于1B规模的排序模型,如果我要做Speculative Decoding,你如何设计那个Draft Model?这个小模型是该学大模型的 Logits 分布,还是该学用户的Embedding聚类7.假设构建一个端到端生成式广告系统。现在面临一个场景:某个新入驻的土豪广告主投放了一批高质量视频,但由于模型对新 ID 的 Semantic Indexing 尚未完全对齐,导致第一波推荐给了错误的人群,产生了极高的 Negative Feedback,生成式模型的自回归特性会不断放大这种“第一印象”,导致该广告主瞬间被屏蔽你如何设计一套Online Counterfactual Correction这种,在不重新训练模型的前提下,通过修改 KV Cache里的隐藏状态来强行挽回这批广告的生命周期9.在短视频重排阶段使用了一个 10B 的生成式模型但是业务反馈说模型在学会了今天最火的某个梗以后,竟然忘记了如何处理用户对“长尾科普视频”的旧兴趣,发生了明显的 Catastrophic Forgetting,设计一种基于 Gradient Orthogonal Projection的优化器,确保模型在更新实时热点知识时,参数更新量在旧知识的Null Space内。10.都知道生成式模型有位置偏差从 Attention Entropy 的角度来看,为什么 $N$ 个候选 Item 在序列中的排列顺序会直接导致 Logits 的非线性漂移
查看9道真题和解析
点赞 评论 收藏
分享
祝大家都能拿到满意的Offer!1.项目拷打2.你们这里说的分层混合编排式 Agent 架构设计是具体怎么做的3.我问一个就是你们在Routing那里,你会根据难度去做不同的一个处理,对吧?那你们这个难度是怎么划分的呢4.你刚才提到就是说,比方说如果刚开始有动态升级的一个范式,就是比方说这个任务刚开始被分配到了7B但是如果它在生成的过程当中,置信度或者说生成的结果它的置信度比较低,你们这个置信度是怎么生成的呢5.你们大概配备了多少个工具6.以风险评估为例,你们的输入输出分别是什么呢7.你的字段是什么8.比方说你说的收缩压这个字段,在用户的问题当中可能不会有这样的一个检测数据。那这种情况你们是怎么来处理呢9.我看到你这里有说在引入了应用层的MOE按照任务动态的激活专家路径,这个具体是怎么实现的呢10.这里就有个问题,我们针对不同的科室去训练一个微调专家,那你们是你们怎么训练的呢?怎么针对于不同科室去训练的,第二个问题就是逻辑上你们这个专家数量可不会少,然后你们的工作量会比较大,这个问题你们又是怎么解决的呢11.你们最终大概是用了多少个专家12.每个大概训练的数据量是多少呢13你们的这个70b模型用的是自己?从头开始预训练的吗?还是用的开源的14那你们医疗数据你们医疗数据的主要来源是在哪里呢?
查看14道真题和解析
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务