27字节暑期抖音推荐算法一面凉经

面试很难,还是要多多练习,感觉自己说不明白业务逻辑
1. 项目拷打
2. 实习拷打
3. rft是什么
4. 你对rl了解多少,简单讲讲
5. rft和ppo的重要性采样区别是什么
6. 讲一讲ppo的clip操作
7. 你觉得rl之前sft的意义是什么,能不能直接rl
8. 你能比较一下先sft再rl和直接rl在成本上的区别吗
9. 你说直接rl可能无法采样到一条好的轨迹,你有具体的实践吗
10. 聊回到项目,你的技能库是怎么构建的?
11. 你们目前对于这个任务的rl是怎么做的
12. 你了解attention吗,展开讲讲
13. attention的公式这么设计的理由
14. 你还知道attention的哪些变体?(GQA,MQA,MLA)分别在哪些方面做了改进,改进的动机是什么,具体优化了多少
15. 展开讲讲这三个分别是如何实现的
16. 除了从kv cache角度对attention进行扩展你还知道其他角度的attention改进吗
17. code1: 合并两个有序数组
18. code2: 给定一个候选数字集合,可以任意组合,要求构造出一个<x的最大数
全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务