技术蓄力中

02-06 16:15 北京大学算法工程师

关注

大模型算法八股整理-后训练（SFT+RL

1.SFT和RL有什么区别，什么场景用什么
2.SFT 有哪些方法，如何判断SFT效果已经达标了
3.SFT 过程中 loss 是怎么计算的
4.现在基座能力越来越强，为什么还要SFT
5.大模型 RAG、SFT、RL区别，分别适用于什么场景
6.为什么在强化学习前要先SFT
7.强化学习 on-policy vs off-policy 的理解与适用场景?
8.PPO/DPO/GRPO/DAPO/GSPO，目标函数、损失函数等
9.GRPO-DPO 对比
10.PPO-GRPO 对比
11.GRPO 公式，GRPO 公式角度来看，为什么会倾向于生成长篇大论
12.GRPO的group 大小怎么影响算法效果
13.GRPO 训练出现熵崩怎么办
14.GRPO 如何评估优势值
15.KI 散度前的系数有什么含义，应该怎么设置
16.对reward hacking 问题的认识及解决办法
17.强化学习的灾难性遗忘的问题
18.怎么看待强化学习的未来
19.对强化学习算法本身的认知，对其研究和落地怎么看

全部评论

推荐最新楼层

百度_大模型算法工程师(实习员工)

GRPO为啥长篇

点赞回复分享

发布于 02-22 19:20 北京

01-29 10:20

上海交通大学算法工程师

腾讯混元TEG大模型三面-实习面经

1.自我介绍，挑一个觉得做的比较好的论文和实习讲一下，面试官问的比较详细，为什么选现在这种方案，为什么 work，其他方案有考虑吗2.在微调 Qwen 的时候，数据是怎么构造的，有用到什么数据清洗方法吗，数据配比是怎么做的3.讲一下 RLHF 的流程，之前有用 RLHF 做过模型对齐吗4.在做对齐的时候，为什么 SFT之后还要做 RLHF，只用 SFT 可以吗5.知道哪些强化学习算法，除了PPO和 DPO这些呢，DeepSeek用的GRPO 相比于 GPT的 PPO 做了哪些改进6.开放题:对目前大模型的发展有什么看法7.代码:零钱的两个题 322.零钱兑换518.零钱兑换 II

查看7道真题和解析

点赞评论收藏

分享

02-03 13:40

昆明理工大学算法工程师

百度算法实习一面

1- 拷打后训练项目2- 熟悉Verl框架吗？里面数据处理和训练流程逻辑，比如roll-out的生成、奖励函数打分、优势和loss的计算有了解吗3- GRPO的优势是什么？4- 拷打实习（agent相关）5- 有没有研究过大模型上下文的工作，比如推理加速或长上下文扩展？6- KV Cache的改进？7- Coding：最长公共子序列

查看5道真题和解析

点赞评论收藏

分享

02-07 11:36

门头沟学院 Java

美团智能体

1.简历 2.介绍 DeepResearch 几篇工作？主 Agent 和子 Agent 有什么区别，主要哪些子 agent？3.RL tool 的 loss 有什么区别？4.Reasoning 的 loss 有什么其他特点，介绍你知道的（think 和 nothink 的 loss）。5.PPO、GRPO、DPO 区别。6.DAPO 了解多少，介绍创新点。6.还有其他 GRPO 变体吗？介绍创新点。7.手撕：rope，打开 llama github 源码的 rope 介绍和我实现的区别总结：RL tool的loss忘了，只有这一个失误，然后喜提人才库

查看7道真题和解析

点赞评论收藏

分享

02-13 03:07

已编辑

门头沟学院算法工程师

27届双非本+9硕冲大模型算法岗还是转Java？求支招！

投票

27届双非本+985硕，2实习0论文，想今年3月投暑期转正实习。已有的两段实习：1. 互联网中厂算法岗：负责模型微调（sft），搭建算法pipeline；2. 外企数据开发岗：做了一点时间序列预测+数据处理。纠结两条路：1️⃣ 冲大模型应用算法岗：有AI相关实习，计划补强化学习项目，但双非本+无论文，怕简历被刷，也怕秋招不好找。2️⃣ 转Java后端开发岗：刚学完JavaSE和JavaWeb，有一个Agent项目，开发岗不卡学历论文，但是需要速成项目和八股求大佬解答：1. 补强化学习项目后，冲算法暑期转正实习机会大吗？2. 转Java真的更稳吗？👇 投票救救孩子！

满分简历要如何准备？

点赞评论收藏

分享

02-05 10:25

中南大学算法工程师

实习面经-字节大模型二面凉经

感觉是项目经历太浅太少了，寒假沉淀沉淀年后再战吧...1. 实习介绍2. 项目深挖3. RAG的问题与改进方案4. 在不能修改模型的情况下，如何调整模型回复风格5. 为什么大模型有few-shot能力？讲一下few-shot能力的原理6. PPO、DPO、GRPO、DAPO等RL算法的原理和区别7. 平时是否使用vibe coding？对此有什么看法？8. 手撕代码：编辑距离，分析写法的时空复杂度，有什么更优的写法

查看8道真题和解析

点赞评论收藏

分享

评论

点赞

1

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 有转正机会的小厂实习值得去吗？ #

3808次浏览 51人参与

# 工作不开心辞职是唯一出路吗 #

7434次浏览 25人参与

# 开工第一帖 #

5759次浏览 113人参与

# 实习期间如何提升留用概率？ #

241097次浏览 1822人参与

# xx岗简历求拷打 #

2181次浏览 25人参与

# 掌握什么AI技能，会为你的求职大大加分 #

2895次浏览 104人参与

# 联想求职进展汇总 #

334883次浏览 2220人参与

# 牛友投递互助，不漏校招机会 #

438724次浏览 5243人参与

# 牛客租房专区 #

158659次浏览 1850人参与

# 非技术er求职现状 #

138931次浏览 821人参与

# 金三银四，你有感觉到吗 #

689453次浏览 6076人参与

# 哪些公司开春招了？ #

30533次浏览 195人参与

# 大家每天通勤多久？ #

88223次浏览 926人参与

# 你最讨厌面试被问什么 #

4763次浏览 55人参与

# 如何缓解入职前的焦虑 #

261764次浏览 1468人参与

# 秋招有哪些公司要求提前实习 #

109403次浏览 563人参与

# 记录实习开销 #

189262次浏览 1061人参与

# 滴滴求职进展汇总 #

308723次浏览 2470人参与

# 哪些公司主动和你打招呼？ #

78236次浏览 366人参与

# tplink提前批进度交流 #

226372次浏览 1523人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务