腾讯大模型实习一面-日常实习
最近闲下来了写一些面经攒点人品
1.手撕三数之和
2.手撕零钱兑换
3.DPO是用来干什么的,原理是什么?
4.DPO的loss是怎么计算的?
5.PPO中reward模型打分之后如何对不同样本进行排序?(Elo)
6.用了几张卡跑的?
7.用了什么显存优化的技术?
8.zero1,2,3的原理?
9.项目是如何进行Data Parallel的?
1.手撕三数之和
2.手撕零钱兑换
3.DPO是用来干什么的,原理是什么?
4.DPO的loss是怎么计算的?
5.PPO中reward模型打分之后如何对不同样本进行排序?(Elo)
6.用了几张卡跑的?
7.用了什么显存优化的技术?
8.zero1,2,3的原理?
9.项目是如何进行Data Parallel的?
全部评论
相关推荐
点赞 评论 收藏
分享
查看24道真题和解析
正浩创新EcoFlow公司福利 742人发布