大模型算法实习一面 滴滴
发一下问题给大家参考,攒攒人品!
1.Self-Attention的原理
2.PPODPOGRPO的区别,几个强化学习的损失函数
3.为什么用GRPO而不是SFT
4.都做过什么技术(罗列,没有深挖)
5.自监督学习怎么做
1.Self-Attention的原理
2.PPODPOGRPO的区别,几个强化学习的损失函数
3.为什么用GRPO而不是SFT
4.都做过什么技术(罗列,没有深挖)
5.自监督学习怎么做
全部评论
求问大佬一面后几天给的结果呀
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
查看5道真题和解析 点赞 评论 收藏
分享