百川大模型算法二面-日常实习

自我感觉良好但喜提人才库,我真没招了...
1.dpo原理 为啥要用dpo不用ppo
2.ppo中的reward model如何训练
3.ppo中的 GAE和优势函数是什么
4.3b模型的数据是哪里得到的
5.grpo和ppo的区别 优势在哪里了解 GQA和 MHA么
6.手写一下 dpo和ppo
7.手写多头注意力机制
8.手写梯度下降法的二分
全部评论

相关推荐

01-09 17:12
四川大学 Java
叁六玖:上次建行给我开25万,让我扣2办理
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务