阿里淘天大模型算法一面 4.10
时长大概1h15m,压力很大,整个过程会不断的打断和追问
1. 介绍grpo和ppo的区别,会频繁打断,不让讲太多,要求精确讲出核心区别
2. ppo的clip操作的作用
3. 重要性采样的作用,除了和clip操作结合限制更新幅度还有什么作用,这种操作和使用kl散度限制更新的区别是什么
4. 马尔可夫性质是什么
5. 从早期的策略梯度算法到现在grpo,有很多模块或者说设定是保留下来的,有些是丢掉了,讲一下发展脉络,为什么要保留/丢掉那些模块
6. 开共享屏幕聊论文,背景,任务设定,对应的实际业务场景
7. workflow,训练方法,用到的公式细节,且会质疑你的数学公式
8. 力扣173,二叉搜索树迭代器,要求先讲思路,三种解法(暴力-优化-正解)
1. 介绍grpo和ppo的区别,会频繁打断,不让讲太多,要求精确讲出核心区别
2. ppo的clip操作的作用
3. 重要性采样的作用,除了和clip操作结合限制更新幅度还有什么作用,这种操作和使用kl散度限制更新的区别是什么
4. 马尔可夫性质是什么
5. 从早期的策略梯度算法到现在grpo,有很多模块或者说设定是保留下来的,有些是丢掉了,讲一下发展脉络,为什么要保留/丢掉那些模块
6. 开共享屏幕聊论文,背景,任务设定,对应的实际业务场景
7. workflow,训练方法,用到的公式细节,且会质疑你的数学公式
8. 力扣173,二叉搜索树迭代器,要求先讲思路,三种解法(暴力-优化-正解)
全部评论
相关推荐
点赞 评论 收藏
分享

查看5道真题和解析