美团大模型实习面经 凉凉

被横向挂了,希望发出来对大家有帮助!
1. 先answer后cot和先cot后answer,做SFT有什么区别?是否对比过效果?
2. 怎么确保人工标注的数据准确率符合预期?
3. 如何选择合理的SFT的checkpoint,用于后续的RL?
4. 图片怎么输入模型的,一张图片有多少token?
5. 你觉得RL和SFT有什么区别?
6. 为什么不只做RL,而选择SFT then RL?
7. 重要性采样是什么,为什么RL中要加入CLIP机制?
8. On-policy和Off-policy有什么区别?
八股
1. Transformer的decoder中为什么要用自回归因果掩码?
2. 缩放点积注意力为什么要除以$\sqrt d_k$?
全部评论
感觉和上一个看到的美团搜推算法题目完全一样,只不过你这个比他少几个问题
点赞 回复 分享
发布于 03-25 15:19 新加坡
这个是一面吗?有手撕吗
点赞 回复 分享
发布于 03-24 01:14 广东

相关推荐

03-03 23:12
已编辑
北京邮电大学 Java
书海为家:我来给一点点小建议,因为毕竟还在学校不像工作几年的老鸟有丰富的项目经验,面试官在面试在校生的时候更关注咱们同学的做事逻辑和思路,所以最好在简历中描述下自己做过项目的完整过程,比如需求怎么来的,你对需求的解读,你想到的解决办法,遇到困难如何找人求助,最终项目做成了什么程度,你从中收获了哪些技能,你有什么感悟。
你的简历改到第几版了
点赞 评论 收藏
分享
评论
点赞
8
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务