大模型算法实习一面 字节 攒人品
面试很难,还是要多多练习,感觉自己说不明白业务逻辑
1、项目拷打
2、self-attention 的时间复杂度是多少?
3、为什么要使用 multi-head attention?
4、PPO 的 clip 机制是什么?
5、在线强化学习和离线强化学习有什么区别?
6、RLHF 属于哪一种?
7、为什么要引入 reference model?主要解决什么问题?
8、如果系统中有多个 agent,需要让它们协同完成任务,你会怎么设计?
9、如果一个 agent 的判断错误导致策略冲突,你会如何处理?
10、有没有使用过类似 AutoGen 或 LangChain 的框架?
11、为什么选择这个框架?
12、你是如何设计 agent 的记忆系统的?
13、长期记忆一般如何存储?
14、如果历史记录非常多,如何优化查询效率?
1、项目拷打
2、self-attention 的时间复杂度是多少?
3、为什么要使用 multi-head attention?
4、PPO 的 clip 机制是什么?
5、在线强化学习和离线强化学习有什么区别?
6、RLHF 属于哪一种?
7、为什么要引入 reference model?主要解决什么问题?
8、如果系统中有多个 agent,需要让它们协同完成任务,你会怎么设计?
9、如果一个 agent 的判断错误导致策略冲突,你会如何处理?
10、有没有使用过类似 AutoGen 或 LangChain 的框架?
11、为什么选择这个框架?
12、你是如何设计 agent 的记忆系统的?
13、长期记忆一般如何存储?
14、如果历史记录非常多,如何优化查询效率?
全部评论
相关推荐
查看9道真题和解析