大模型算法八股整理-后训练(SFT+RL

1.SFT和RL有什么区别,什么场景用什么
2.SFT 有哪些方法,如何判断SFT效果已经达标了
3.SFT 过程中 loss 是怎么计算的
4.现在基座能力越来越强,为什么还要SFT
5.大模型 RAG、SFT、RL区别,分别适用于什么场景
6.为什么在强化学习前要先SFT
7.强化学习 on-policy vs off-policy 的理解与适用场景?
8.PPO/DPO/GRPO/DAPO/GSPO,目标函数、损失函数等
9.GRPO-DPO 对比
10.PPO-GRPO 对比
11.GRPO 公式,GRPO 公式角度来看,为什么会倾向于生成长篇大论
12.GRPO的group 大小怎么影响算法效果
13.GRPO 训练出现熵崩怎么办
14.GRPO 如何评估优势值
15.KI 散度前的系数有什么含义,应该怎么设置
16.对reward hacking 问题的认识及解决办法
17.强化学习的灾难性遗忘的问题
18.怎么看待强化学习的未来
19.对强化学习算法本身的认知,对其研究和落地怎么看
全部评论
GRPO为啥长篇
点赞 回复 分享
发布于 02-22 19:20 北京

相关推荐

攒攒人品!有面试过同岗的朋友欢迎评论区交流1.项目拷打2.项目中实际 QPS、延迟、数据规模是多少?瓶颈在哪,怎么解决的?3.讲一个你做过的技术选型,为什么选它?有没有更优方案?4.设计一个支持多轮对话+工具调用的 Agent,整体架构怎么拆?5.Prompt 如何设计才能降低 hallucination?有哪些工程手段?6.多轮对话中上下文过长怎么处理?裁剪策略有哪些?7.Agent 调多个工具时,如何做调度、重试和兜底?8.function calling / tool calling 的实现原理是什么?9.一条 query 在 RAG 系统中的完整链路是怎样的?10.BM25 和向量召回各自优缺点?线上如何融合?11.embedding 模型选型时要考虑哪些指标?12.query rewrite / 多 query 扩展的原理是什么?有什么风险?13.rerank 模型为什么必要?一般放在哪一层?14.HNSW 的核心结构是什么?为什么查询效率高?15.IVF、PQ、HNSW 的区别和适用场景?16.向量索引如何支持高并发查询和在线更新?17.embedding 维度过高会带来什么问题?如何优化?18.文档 chunk 如何切分?长度和重叠怎么设计?19.如何解决 chunk 切分带来的语义断裂问题?20.知识库如何做增量更新并保证一致性?21.多模态数据(图文/表格)如何统一建索引?
点赞 评论 收藏
分享
评论
点赞
8
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务