饿了么一面

📍面试公司:饿了么
💻面试岗位:大模型
❓面试问题:
1. ppo的特点,他的kl散度,重要性采样和kl散度的关系
2. grpo为什么loss和kl差不多
3. 原始的ppo是off policy怎么改成on的
4. grpo最原始是token还是sequence,后面要怎么改
5. ppo里面优势有什么作用,重要性采样有什么作用
6. peft介绍一下
🙌面试感想:
酣畅淋漓的拷打,接连道歉
#发面经攒人品##我的秋招日记##我的秋招“寄”录##饿了么#
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务