字节大模型算法面经
1.介绍下self-attention,计算其时间复杂度。
2.为什么要用multi-head attention?
3.PPO的clip机制?在线强化学习和离线强化学习有什么区别?RLHF是哪一种?
4.为什么要用reference model? 为了解决什么问题?
5.如何让多个agent协同工作的?举个具体的协同机制例子。
6.如果一个agent误判导致策略冲突,如何处理?
7.有没有用到类似AutoGen或LangChain的框架?为什么选这个框架?
8.你是怎么设计agent的记忆系统?
9.长期记忆如何存储?如果历史记录量非常大,怎么优化查询效率?
10.你怎么处理响应速度与推理精度之间的tradeoff?是先召回再精排,还是单次生成?
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
2.为什么要用multi-head attention?
3.PPO的clip机制?在线强化学习和离线强化学习有什么区别?RLHF是哪一种?
4.为什么要用reference model? 为了解决什么问题?
5.如何让多个agent协同工作的?举个具体的协同机制例子。
6.如果一个agent误判导致策略冲突,如何处理?
7.有没有用到类似AutoGen或LangChain的框架?为什么选这个框架?
8.你是怎么设计agent的记忆系统?
9.长期记忆如何存储?如果历史记录量非常大,怎么优化查询效率?
10.你怎么处理响应速度与推理精度之间的tradeoff?是先召回再精排,还是单次生成?
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论
相关推荐
02-02 22:02
华南理工大学 golang 点赞 评论 收藏
分享
点赞 评论 收藏
分享
查看1道真题和解析