大模型算法实习一面 字节 攒人品

面试很难,还是要多多练习,感觉自己说不明白业务逻辑
1、项目拷打

2、self-attention 的时间复杂度是多少?

3、为什么要使用 multi-head attention?

4、PPO 的 clip 机制是什么?

5、在线强化学习和离线强化学习有什么区别?

6、RLHF 属于哪一种?

7、为什么要引入 reference model?主要解决什么问题?

8、如果系统中有多个 agent,需要让它们协同完成任务,你会怎么设计?

9、如果一个 agent 的判断错误导致策略冲突,你会如何处理?

10、有没有使用过类似 AutoGen 或 LangChain 的框架?

11、为什么选择这个框架?

12、你是如何设计 agent 的记忆系统的?

13、长期记忆一般如何存储?

14、如果历史记录非常多,如何优化查询效率?
全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务