大模型算法实习面经-字节跳动
面试很难,还是要多多练习,感觉自己说不明白业务逻辑
1.介绍下self-attention,计算其时间复杂度。
2.为什么要用multi-head attention?
3.PPO的clip机制?在线强化学习和离线强化学习有什么区别?RLHF是哪一种?
4.为什么要用reference model? 为了解决什么问题?
5.如何让多个agent协同工作的?举个具体的协同机制例子。
6.如果一个agent误判导致策略冲突,如何处理?
7.有没有用到类似AutoGen或LangChain的框架?为什么选这个框架?
8.你是怎么设计agent的记忆系统?
9.长期记忆如何存储?如果历史记录量非常大,怎么优化查询效率?
10.你怎么处理响应速度与推理精度之间的tradeoff?是先召回再精排,还是单次生成?
1.介绍下self-attention,计算其时间复杂度。
2.为什么要用multi-head attention?
3.PPO的clip机制?在线强化学习和离线强化学习有什么区别?RLHF是哪一种?
4.为什么要用reference model? 为了解决什么问题?
5.如何让多个agent协同工作的?举个具体的协同机制例子。
6.如果一个agent误判导致策略冲突,如何处理?
7.有没有用到类似AutoGen或LangChain的框架?为什么选这个框架?
8.你是怎么设计agent的记忆系统?
9.长期记忆如何存储?如果历史记录量非常大,怎么优化查询效率?
10.你怎么处理响应速度与推理精度之间的tradeoff?是先召回再精排,还是单次生成?
全部评论
相关推荐
查看14道真题和解析