27实习 商汤大模型算法二面 攒人品中
发一下问题给大家参考,攒攒人品!
1.项目拷打
2.dpo和ppo的区别,dpo有哪些改进,他们的目标函数。
3.ppo训练涉及哪些模型?哪些冻结?输出是什么?value、reward、advantage之间关系;clip作用。
4.grpo中正确且短,正确且长,错误且长,错误且短四种情况模型倾向排序,为什么?
5.grpo目标函数;grpo改进方法了解哪些;dapo核心改进。
6.moe和dense的区别,moe会带来哪些问题?
7.rl训练推理不一致有了解过吗?哪些方面可能会产生训推不一致?reward怎么设计的?
8.fsdp,zero不同阶段,Megatron。
9.预训练,sft,rl关系?sft只是做格式对齐吗?
10.pre norm和post norm的区别?为什么偏向pre?
11.temperature如何控制输出的?
12.手撕:mha和池化二选一;2*N地板覆盖
1.项目拷打
2.dpo和ppo的区别,dpo有哪些改进,他们的目标函数。
3.ppo训练涉及哪些模型?哪些冻结?输出是什么?value、reward、advantage之间关系;clip作用。
4.grpo中正确且短,正确且长,错误且长,错误且短四种情况模型倾向排序,为什么?
5.grpo目标函数;grpo改进方法了解哪些;dapo核心改进。
6.moe和dense的区别,moe会带来哪些问题?
7.rl训练推理不一致有了解过吗?哪些方面可能会产生训推不一致?reward怎么设计的?
8.fsdp,zero不同阶段,Megatron。
9.预训练,sft,rl关系?sft只是做格式对齐吗?
10.pre norm和post norm的区别?为什么偏向pre?
11.temperature如何控制输出的?
12.手撕:mha和池化二选一;2*N地板覆盖
全部评论
相关推荐
04-15 19:00
西北工业大学 C++ 点赞 评论 收藏
分享
点赞 评论 收藏
分享
点赞 评论 收藏
分享
