腾讯大模型实习一面-日常实习
最近闲下来了写一些面经攒点人品
1.手撕三数之和
2.手撕零钱兑换
3.DPO是用来干什么的,原理是什么?
4.DPO的loss是怎么计算的?
5.PPO中reward模型打分之后如何对不同样本进行排序?(Elo)
6.用了几张卡跑的?
7.用了什么显存优化的技术?
8.zero1,2,3的原理?
9.项目是如何进行Data Parallel的?
1.手撕三数之和
2.手撕零钱兑换
3.DPO是用来干什么的,原理是什么?
4.DPO的loss是怎么计算的?
5.PPO中reward模型打分之后如何对不同样本进行排序?(Elo)
6.用了几张卡跑的?
7.用了什么显存优化的技术?
8.zero1,2,3的原理?
9.项目是如何进行Data Parallel的?
全部评论
相关推荐
点赞 评论 收藏
分享
查看25道真题和解析