字节大模型Agent算法二面-秋招面经

1.介绍下self-attention,计算其时间复杂度。
2.为什么要用multi-head attention?
3.PPO的clip机制?在线强化学习和离线强化学习有什么区别?RLHF是哪一种?
4.为什么要用reference model? 为了解决什么问题?
5.如何让多个agent协同工作的?举个具体的协同机制例子。
6.如果一个agent误判导致策略冲突,如何处理?
7.有没有用到类似AutoGen或LangChain的框架?为什么选这个框架?
8.你是怎么设计agent的记忆系统?
9.长期记忆如何存储?如果历史记录量非常大,怎么优化查询效率?
10.有没有做记忆衰退,避免旧数据干扰新任务?
11.你们这种模块堆叠的架构是怎么设计视觉问答模块和动作模块的协同逻辑的?
12.human feedback是怎么被agent消化吸收的?有没有用rl进行策略更新?
13.有没有做过模型压缩?比如在车载端或低端设备上的推理加速?
14.如果量化后理解能力下降怎么办?怎么做精度补偿?
15.你怎么处理响应速度与推理精度之间的tradeoff?是先召回再精排,还是单次生成?
16.如果要做电商agent,你会选择哪些模态的信息作为输入?比如文本评论、图像、视频、购买记录?
全部评论

相关推荐

评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务