算法工程师精选面经合集
11家公司
44篇面经
最新 热门
12-05 23:15
门头沟学院 Java
26校招百度推荐算法面经
1. 详细讲讲你第一个实习项目的内容和背景。2. 你们采用的是四塔结构(多目标建模),相比传统的双塔结构(用户塔+商品塔),它的优势体现在哪些方面?带来了哪些实际提升?3. 离线流程是如何设计的?线上服务调用离线结果时,是实时更新还是按固定周期刷新?4. 用户塔中用了哪些特征?模型上线后,你们重点监控了哪些指标?比如场景内的表现,以及跨类目的泛化能力等。5. 多模态特征的维度大概是多少?为什么加入多模态特征后,全量上线效果显著提升?6. 在商品塔中引入多模态 encoder 后,为什么离线评估效果反而下降了?你们有分析原因吗?7. 讲讲你参与的第二个项目。这个项目中特征工程是如何优化的?混合负采样策略是怎么设计的?损失函数选的是什么?有没有尝试不同的激活函数?效果如何?8. 在模型迭代过程中,有没有尝试其他结构,比如专家网络(如 MMoE)?效果如何?9. 基础知识点:- 如何有效防止模型过拟合?- Transformer 的基本结构是怎样的?- 决策树的构建原理:基尼指数、信息增益率的计算公式?它们分别代表什么?是越大越好还是越小越好?节点如何划分?树的深度如何控制?如果树太深了怎么办?- GBDT 相比传统决策树做了哪些改进?10. 编程题:给定一个升序排列的数组和一个目标值,编写函数找出该值在数组中出现的起始位置和结束位置。
查看13道真题和解析
点赞 评论 收藏
分享
/feed/main/detail/b76180a1ea85460bb2f906974371c24d/feed/main/detail/ad04d8653e0f4b7eaa6cdcf76559aff8
荣耀1205日常实习多模态大模型算法
查看3道真题和解析
点赞 评论 收藏
分享
/feed/main/detail/6d3a538acdc1401bb9a56b859d1ee126/feed/main/detail/95520b56d9b64888ad48cb85f1f7025a/feed/main/detail/5c619a766a1f4edb85d5da0d7382e65d
算法面经|RLHF八股总结
1. RLHF相较于传统SFT,聚焦解决语言模型哪些核心问题?RLHF主要致力于解决语言模型在生成内容时,如何更好地贴合人类价值观、提升内容质量与安全性,以及让模型生成更符合人类期望的多样化回复等核心问题。2. 经典RLHF流程三核心阶段详述监督微调阶段:输入带标注的文本数据,输出微调后的语言模型。通过监督学习,让模型初步具备生成合理回复的能力。奖励模型训练:输入成对比较数据,输出训练好的奖励模型。构建一个能准确评估回复质量的模型,为后续强化学习提供有效的奖励信号。强化学习:输入语言模型和奖励模型,输出优化后的语言模型。利用奖励模型的反馈,通过强化学习算法调整语言模型参数,生成更符合人类期望的回复。3. RM训练用成对比较数据的优劣优势:人类对两个回复的相对优劣判断更准确且一致,能降低标注难度与主观偏差。劣势:收集大量成对数据,成本较高;难以直接量化回复的绝对质量。4. 奖励模型架构选择、与LLM关系及损失函数5. RLHF第三阶段选PPO的原因及KL散度作用相比简单策略梯度,PPO能更好地平衡探索与利用,提高训练稳定性;相较于Q - learning系算法,PPO更适合处理高维连续动作空间问题。KL散度关键作用是限制新策略与旧策略的差异,防止策略更新过大导致模型性能不稳定。6. PPO中KL散度系数设置不当的问题及调整方法若系数B设置过大,会导致策略更新过于保守,模型难以学习到新策略,性能提升受限;若设置过小,策略更新可能过于激进,模型性能不稳定。可通过实验观察训练过程中的奖励值、KL散度值等指标,逐步调整系数B,找到合适的平衡点。7. “奖励作弊/奖励黑客”及缓解策略模型为获取高奖励,利用奖励模型漏洞生成不符合人类期望但奖励值高的回复。缓解策略包括:优化奖励模型,减少漏洞;增加人工审核环节;采用更复杂的强化学习算法等。8. DPO核心思想及与传统RLHF(基于PPO)对比优势DPO核心思想是直接优化模型生成回复的偏好,无需通过强化学习间接调整。与PPO相比,DPO省略了强化学习步骤,直接利用偏好数据进行模型训练。优势是流程更简单,训练效率更高,稳定性更好。9. RLHF模型离线优上线差的原因及分析解决方向原因是:离线评估指标与真实用户需求不匹配;奖励模型存在偏差,过度鼓励某些模式化回复。可从以下方面分析解决:优化评估指标,更贴近真实用户反馈;重新训练奖励模型,减少偏差;引入多样性约束机制等。10. Deepseek的GRPO与PPO主要区别
查看10道真题和解析
点赞 评论 收藏
分享
/feed/main/detail/20e8f456d0c5418cad2b46b39c0d0f61/feed/main/detail/b0e597ff9b024c978bf7ba4d89438e54
12-04 22:33
武汉大学 Java
20251204【蚂蚁】面试算法真题(共1题)
题目1:实现Transformer中的Multi-Head Attention
查看1道真题和解析
点赞 评论 收藏
分享
/discuss/826222590795513856/feed/main/detail/b37d6b481cc64bf2b9e7f7a9e4fcf1b5/feed/main/detail/e8aed97b358b4ec781587eb54f557bb8
12-04 22:31
武汉大学 Java
20251204【字节】面试二算法真题(共1题)
题目1:贪吃蛇游戏模拟
查看1道真题和解析
点赞 评论 收藏
分享
/discuss/826222176226304000/feed/main/detail/83b10bf302154abeaf7c45c8d942e5a3/feed/main/detail/78eca8dcaa1949cf97300176717264b5
12-04 22:31
武汉大学 Java
20251204【字节】面试算法真题(共2题)
题目1:概率题题目2:生成括号
查看2道真题和解析
点赞 评论 收藏
分享
/discuss/826221936769249280/feed/main/detail/ce2e932d3c224c348710ac650fceb017/feed/main/detail/ba0bb9c4254641f4b62ee31414fbe621
12-04 22:29
武汉大学 Java
20251204【文远知行】笔试算法真题(共3题)
题目1:无人车路径规划题目2:Moe语言程序分析题目3:合法数列
投递文远知行等公司6个岗位
点赞 评论 收藏
分享
/discuss/826221652835840000/feed/main/detail/dcdbd43eef0243f4a6392a35ea99b345/feed/main/detail/42100b8a14e142db9df5ef68ed96eab1
12-03 21:23
武汉大学 Java
20251203【携程】面试算法真题(共1题)
题目1:反转句子
查看1道真题和解析
点赞 评论 收藏
分享
/discuss/825842544574545920
玩命加载中
写面经
发动态
发动态
发帖子
写文章

全站热榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务