面试很难,还是要多多练习,感觉自己说不明白业务逻辑1. 项目拷打2. 实习拷打3. rft是什么4. 你对rl了解多少,简单讲讲5. rft和ppo的重要性采样区别是什么6. 讲一讲ppo的clip操作7. 你觉得rl之前sft的意义是什么,能不能直接rl8. 你能比较一下先sft再rl和直接rl在成本上的区别吗9. 你说直接rl可能无法采样到一条好的轨迹,你有具体的实践吗10. 聊回到项目,你的技能库是怎么构建的?11. 你们目前对于这个任务的rl是怎么做的12. 你了解attention吗,展开讲讲13. attention的公式这么设计的理由14. 你还知道attention的哪些变体?(GQA,MQA,MLA)分别在哪些方面做了改进,改进的动机是什么,具体优化了多少15. 展开讲讲这三个分别是如何实现的16. 除了从kv cache角度对attention进行扩展你还知道其他角度的attention改进吗17. code1: 合并两个有序数组18. code2: 给定一个候选数字集合,可以任意组合,要求构造出一个<x的最大数