百川大模型算法二面-日常实习
自我感觉良好但喜提人才库,我真没招了...
1.dpo原理 为啥要用dpo不用ppo
2.ppo中的reward model如何训练
3.ppo中的 GAE和优势函数是什么
4.3b模型的数据是哪里得到的
5.grpo和ppo的区别 优势在哪里了解 GQA和 MHA么
6.手写一下 dpo和ppo
7.手写多头注意力机制
8.手写梯度下降法的二分
1.dpo原理 为啥要用dpo不用ppo
2.ppo中的reward model如何训练
3.ppo中的 GAE和优势函数是什么
4.3b模型的数据是哪里得到的
5.grpo和ppo的区别 优势在哪里了解 GQA和 MHA么
6.手写一下 dpo和ppo
7.手写多头注意力机制
8.手写梯度下降法的二分
全部评论
相关推荐
02-13 18:45
山东大学 C++ 点赞 评论 收藏
分享
点赞 评论 收藏
分享

