大模型算法实习一面 滴滴

发一下问题给大家参考,攒攒人品!
1.Self-Attention的原理
2.PPODPOGRPO的区别,几个强化学习的损失函数
3.为什么用GRPO而不是SFT
4.都做过什么技术(罗列,没有深挖)
5.自监督学习怎么做
全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务