大模型算法实习一面 滴滴

发一下问题给大家参考,攒攒人品!
1.Self-Attention的原理
2.PPODPOGRPO的区别,几个强化学习的损失函数
3.为什么用GRPO而不是SFT
4.都做过什么技术(罗列,没有深挖)
5.自监督学习怎么做
全部评论
求问大佬一面后几天给的结果呀
点赞 回复 分享
发布于 04-10 10:03 北京

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务