技术蓄力中

昨天 16:15 北京大学算法工程师

关注

大模型算法八股整理-后训练（SFT+RL

1.SFT和RL有什么区别，什么场景用什么
2.SFT 有哪些方法，如何判断SFT效果已经达标了
3.SFT 过程中 loss 是怎么计算的
4.现在基座能力越来越强，为什么还要SFT
5.大模型 RAG、SFT、RL区别，分别适用于什么场景
6.为什么在强化学习前要先SFT
7.强化学习 on-policy vs off-policy 的理解与适用场景?
8.PPO/DPO/GRPO/DAPO/GSPO，目标函数、损失函数等
9.GRPO-DPO 对比
10.PPO-GRPO 对比
11.GRPO 公式，GRPO 公式角度来看，为什么会倾向于生成长篇大论
12.GRPO的group 大小怎么影响算法效果
13.GRPO 训练出现熵崩怎么办
14.GRPO 如何评估优势值
15.KI 散度前的系数有什么含义，应该怎么设置
16.对reward hacking 问题的认识及解决办法
17.强化学习的灾难性遗忘的问题
18.怎么看待强化学习的未来
19.对强化学习算法本身的认知，对其研究和落地怎么看

全部评论

推荐最新楼层

昨天 14:21

已编辑

上海交通大学 C++

我的AI员工-三个月上岸字节

1.Cursor-写代码2.ChatGPT-刷题用途：LeetCode算法专用Prompt："给我3种解法（暴力/优化/最优），画图解释关键步骤，再出3道类似题"3.豆包-面试用途：模拟压力面，免费的还要啥自行车。设定："你是字节面试官，连续追问我的项目直到发现知识盲区"实际效果：让我更加自信，真实面试时就淡定很多

一张图晒一下你的AI员工

点赞评论收藏

分享

02-03 20:55

浙江大学算法工程师

美团大模型算法实习一面

1. 项目细节：SFT数据合成、SFT/RL训练细节、奖励函数设计2. 项目细节：多模态对齐（Text和Image）3. 项目细节：证明Cold-Start SFT后再RL的模型比只RL效果好4. 项目细节：为什么不用DPO、PPO等经典强化学习方法？5. 项目细节：数据覆盖领域及微调保留通用能力的方法6. 算法题：Leetcode大数加法7. 八股：BERT模型结构和原理8. 八股：用BERT做一个分类任务9. 八股：Transformer的多头注意力机制原理10. 八股：Decode-only与Encode-only架构区别及设计原因

查看10道真题和解析

点赞评论收藏

分享

02-04 17:50

北京大学算法工程师

美团大模型研发二面-日常实习

项目和八股 1.grpo哪个阶段最耗时2.rollout采样3.使用过 verl 框架吗4.verl 框架为什么需要重新 forward 计算 log probs5.dapo 的几个创新- clip-higher- Dynamic Sampling- token级别优势计算6.大模型推理优化 答了deepspeed 等 不行 说这个是训练方面的- 推理主要分为两个阶段  prefill+decoder- 量化：用低精度比如int8保存 参数 激活值  KVcache- KVCache 量化（vllm也采取了pageAttention，将KV cache当成虚拟内存+页表 按照固定的page进行管理）- GQA- flash attention反问

查看11道真题和解析

点赞评论收藏

分享

02-04 09:25

中南大学算法工程师

顺丰大模型算法实习面经-八股拷打

1，介绍RAG流程，分段有没有做优化；编码模型和重排模型用了什么；Qwen3系列和bge系列的原理，Qwen3系列编码模型是怎么训练的2，RAG怎么评估，用了哪些指标；RAGAS有哪些指标，为什么不直接用库3，Agent的思想是什么，Agent包含哪些部分；介绍DeepResearch；介绍Agent怎么做任务规划和问题分解4，SFT数据集怎么构建，问题不够多样化怎么解决5，介绍LoRA原理；LoRA分支怎么初始化，为什么这么做6，self-attention公式；为什么要scaling7，介绍KV Cache；vllm是怎么加速推理8，RLHF，介绍PPO，包含多少个模型；GRPO与PPO的区别；GRPO的缺点；介绍GSPO

查看8道真题和解析

点赞评论收藏

分享

昨天 13:06

第一拖拉机制造厂拖拉机学院 C++

不说别的东西hot100一定要熟练 一定要理解 不是死记硬背那种 很多公司都是考这些的 只有这些稳了才有冲击大厂的资格

程序员找工作至少要刷多少...

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 在大厂上班是一种什么样的体验 #

12284次浏览 165人参与

# 你的mentor是什么样的人？ #

51140次浏览 721人参与

# 程序员找工作至少要刷多少题？ #

21138次浏览 272人参与

# 我和mentor的爱恨情仇 #

106270次浏览 948人参与

# 论秋招对个人心气的改变 #

13340次浏览 188人参与

# 机械人避雷的岗位/公司 #

44114次浏览 309人参与

# 为了减少AI幻觉，你注入过哪些设定？ #

5979次浏览 182人参与

# 秋招落幕，你是He or Be #

54227次浏览 618人参与

# 校招第一份工作你干了多久？ #

136662次浏览 597人参与

# 高薪高压 vs 低薪wlb，你怎么选？ #

47405次浏览 290人参与

# 设计人如何选offer #

189708次浏览 868人参与

# 考公VS就业，你怎么选？ #

91982次浏览 507人参与

# 职场上哪些行为很加分？ #

322542次浏览 3601人参与

# 你的秋招进行到哪一步了 #

2530852次浏览 23253人参与

# 牛客AI体验站 #

7714次浏览 208人参与

# 机械人还在等华为开奖吗？ #

312122次浏览 1582人参与

# 秋招投递记录 #

380918次浏览 3204人参与

# 12306一秒售罄，你抢到回家的票了吗？ #

2304次浏览 52人参与

# 我现在比当时_，你想录用我吗 #

9422次浏览 129人参与

# 重来一次，我还会选择这个专业吗 #

411265次浏览 3898人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务