字节大模型算法实习一面-tiktok

继续来分享下最近的面经~欢迎友好讨论,信息共享
实习拷打+项目拷打
1. 为什么选GRPO和DAPO,和你的任务场景有关吗?为什么不用别的
2. DAPO针对GRPO做了哪些改进
3.了不了解其他RL算法比如gspo之类的

手撕两道:MHA+hot100的动态规划
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务