算法打工人阿旺

02-27 23:17 中山大学算法工程师发布于山东

关注

大厂推荐算法面经10问

1.你知道 DPO 的损失函数公式吗，
2.GRPO , PPO 与 DPO 区别是什么
3.GRPO / PPO 是 on policy 还是 off policy 的， DPO 呢
4.DAPO 对 GRPO 的改进有哪些
5.Gspo 对 Grpo 的改进有哪些
6.比较一下 process reward 和 outcome reward
7.强化学习训练时遇到 reward 上升，但 validation 时效果下降，有哪些解决思路
8. VeRL 框架是同步的还是异步的，具体的训练流程是什么
9.了解 RL 的训推不一致问题吗？训推不一致的产生原因是什么
10.你认为未来 SFT 阶段和 RL 阶段，哪个更重要
📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

全部评论

推荐最新楼层

04-09 07:37

蚌埠坦克学院嵌入式软件开发

蔚来嵌入式一面面经

1. 说一下 volatile 的作用，它能保证线程安全吗？答：volatile 的核心作用是保证变量的可见性，并且在一定程度上禁止指令重排，但它不能保证复合操作的原子性，所以一般不能单独用来保证线程安全。可见性一个线程修改了 volatile 变量后，其他线程能够立刻看到最新值。它适合做状态标志位，比如“设备初始化完成”“接收到数据”等。禁止指令重排编译器和 CPU 在优化时可能会调整指令顺序。volatile 会在读写时加入内存屏障，避免关键步骤被乱序执行。不能保证原子性像 count++ 这种操作，本质上是“读-改-写”三步，不是原子操作。即使 count 是 volatile，多个线程...

嵌入式面试八股文全集

点赞评论收藏

分享

05-04 09:35

门头沟学院 Java

滴滴花小猪后端Agent开发一面 1h

整体面试还是不错的，但是没后续了，不知道是哪里出了问题1.实习拷打2.Go是如何进行GC的3.标记法是怎么遍历的4.GMP模型解释一下5.Map是线程安全吗，如何保证线程安全？6.sync.Map的底层了解吗？7.乐观锁和悲观锁了解吗8.Mysql有哪些锁？9.哪些是悲观，哪些是乐观10.coding部分——leet原题——给一个字符串，这其中全部的回文字符串11.了解OpenClaw吗12.最近用了什么AI，怎么用的？

点赞评论收藏

分享

05-04 17:41

门头沟学院 Java

滴滴agent算法一面

实习+项目:1. 详细介绍项目背景  结合业务场景2. 生成的训练数据,具体是怎么生成的?3. 数据增强是怎么做的?4. 怎么确保更大更复杂模型的结果,是100%正确的?  有没有量化指标可以确认5. 怎么样确保,把工具调用的轨迹 ,融入到种子数据集里面, promot是怎么设计的6. 除了lora以外 ,还了解其它的一些微调方法吗?7. 为什么lora的微调效果比较好?8. 切分策略是什么?9. 语义切分策略和固定大小切块分割策略,效果对比. 有哪些不一样的方面?八股:1. transformer的原理2. attention的公式3. 为什么除以根号dk算法:字符串解码面试回答的并不好，算法题未a出来。还是要好好沉淀

查看13道真题和解析

点赞评论收藏

分享

05-19 18:15

门头沟学院后端工程师

某智驾公司一面-agent实习

介绍实习的经历，主要做了什么？实习过程中吗，最难的地方在哪里？要是本地部署模型，会不会比在线调用的api快很多RAG到底是一种怎么样的技术？RAG到底是如何通过用户的话去匹配相关的资料的？如何提升他的精度，避免噪声?MySQL事务索引失效常见情况反问公司的业务实习生承担的角色

查看10道真题和解析

点赞评论收藏

分享

05-26 12:11

门头沟学院算法工程师

海底捞大模型面经

面试官一上来没问传统的八股，直接问一个场景题怎么做一个海底捞智能点餐Agent的后训练。我说那当然是先SFT再RL。但这个不能只简单的sft，根本就没有训练数据，你这个场景还得是多轮的，用户又不是报菜名贯口选手，张嘴就来一串"番茄加牛油 + 麻一度+七寸盘脆毛肚"。没有对话数据，从哪开始炼？先搞数据吧。现在海底捞门店全是 iPad 和小程序点单，数据形态是用户行为轨迹（trajectory），不是对话：- 选锅底（番茄 + 牛油）- 加菜、撤菜- 翻页停留（隐式反馈）- 临时改备注要把这套 UI 操作流翻译成自然语言多轮对话，再喂模型学。目标语料长这样 👇▎ Agent：先看锅底？▎ 用户：有人吃辣有人不吃。▎ Agent：番茄牛油鸳鸯，行么？▎ 用户：可以，麻度调到 1。▎ Agent：开始点涮菜吧。▎ 用户：来份捞派脆脆毛肚……把过去的点单流水批量合成几十万条这种对话，SFT 阶段仅计算 Agent 那一侧的 loss（User轮次全 mask 掉），不然模型会学着模仿用户瞎点菜。多轮在线 RL 比 SFT 难十倍——没人能现场陪你跑几万局。所以得先训一个 User 模拟器：- 输入种子 profile：黑海 / 金海 / 银海等级、历史偏好、过敏忌口、是否「薅羊毛型选手」……- 第一轮 Agent 出招后，模拟器接力生成第二轮回应，往返多轮- profile 里塞一个 「结束点餐」special token，控制对话什么时候自然停下有了这个模拟器，才能稳定 rollout 出多轮 trajectory 喂 RL。面试官追问多轮RL的reward怎么设计？我的思路是全部做成 verifiable reward，避免 reward hacking：符合历史人均消费客单价+100分，点餐分量合理+80分，荤素分布合理或符合历史分布+60分，命中特殊需求轮次奖励+120分。用pav信用算法分配考虑turn级的分配，，引导模型循序渐进引导式点单——而不是一上来甩一整本菜单让用户挑。面试官说又追问，这么做的大模型应用真比直接点餐体验好吗？我愣住了，你们招这岗位，不就是要做这个事吗。。。为啥还要质疑存在的合理性？我只能硬着头皮答😅面试官说:谢谢你的时间。后续是挂了

查看3道真题和解析

点赞评论收藏

分享

评论

1

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 我的实习日记 #

4134185次浏览 33129人参与

# 你认为小厂实习有用吗？ #

151547次浏览 790人参与

# 第3届现代汽车Code Faster急速编程挑战赛 #

7392次浏览 326人参与

# 为了找工作你投递了多少公司？ #

119126次浏览 758人参与

# 机械人的offer怎么选 #

296210次浏览 1285人参与

# 实习生的生存小技巧 #

41644次浏览 357人参与

# 实习返校后，你的精神状态是__？ #

47212次浏览 166人参与

# 你最近因为什么迷茫？ #

106280次浏览 975人参与

# 我的租房踩坑经历 #

229472次浏览 1277人参与

# 通信硬件薪资爆料 #

1349173次浏览 7307人参与

# 牛友的春节生活 #

133998次浏览 838人参与

# 如果能重来，就业or读研你选哪个？ #

331848次浏览 2843人参与

# 工作不开心辞职是唯一出路吗 #

20652次浏览 63人参与

# 牛客AI体验站 #

32929次浏览 447人参与

# 为什么国企只招应届生 #

271703次浏览 1346人参与

# 顺丰求职进展汇总 #

91521次浏览 372人参与

# 你觉得什么岗位会被AI替代 #

68580次浏览 401人参与

# 机械人求职现状 #

45501次浏览 335人参与

# 求职遇到的搞笑事件 #

208861次浏览 1078人参与

# 你觉得机械有必要实习吗 #

92097次浏览 543人参与

# 体制内上岸心路历程 #

42133次浏览 243人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务