腾讯大模型实习一面-日常实习

最近闲下来了写一些面经攒点人品
1.手撕三数之和
2.手撕零钱兑换
3.DPO是用来干什么的,原理是什么?
4.DPO的loss是怎么计算的?
5.PPO中reward模型打分之后如何对不同样本进行排序?(Elo)
6.用了几张卡跑的?
7.用了什么显存优化的技术?
8.zero1,2,3的原理?
9.项目是如何进行Data Parallel的?
全部评论

相关推荐

01-27 22:50
武汉大学 Java
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务