高德大模型实习一面(凉凉

给我面没招了,感觉自己好菜
1. 介绍项目,主要只问了和强化学习相关的那个项目。
2.项目强化学习部分,为什么用 DPO 而不是 PPO?GRPO效果怎么样?为什么要用GRPO
3.DPO 的目标函数 / 损失函数大概是什么思路?和 PPO 区别在哪?为什么要加 KL 散度限制?为什么要防止和原模型偏差太大?
4. 你对 Transformer 的 Encoder-Decoder 结构理解如何?Self-attention 公式是什么?
5. 了解 Multi-Head Attention、Group Attention、MLA、KV Cache 这些优化吗?Group Attention是哪两个可以复用?
无手撕
全部评论

相关推荐

评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务