时长大概1h15m,压力很大,整个过程会不断的打断和追问1. 介绍grpo和ppo的区别,会频繁打断,不让讲太多,要求精确讲出核心区别2. ppo的clip操作的作用3. 重要性采样的作用,除了和clip操作结合限制更新幅度还有什么作用,这种操作和使用kl散度限制更新的区别是什么4. 马尔可夫性质是什么5. 从早期的策略梯度算法到现在grpo,有很多模块或者说设定是保留下来的,有些是丢掉了,讲一下发展脉络,为什么要保留/丢掉那些模块6. 开共享屏幕聊论文,背景,任务设定,对应的实际业务场景7. workflow,训练方法,用到的公式细节,且会质疑你的数学公式8. 力扣173,二叉搜索树迭代器,要求先讲思路,三种解法(暴力-优化-正解)