百度实习-Agent 算法一面分享
给我面没招了,发点面经攒攒人品~
1.项目怎么做的,用了什么技术
2.单一Agent还是多Agent
3.Agent里面有几个工具
4.为什么不用大尺度模型或者新的模型,怎么考虑
5.数据怎么构建的,怎么评价数据的质量
6.强化学习中遇到了什么问题,因为强化学习很容易训崩,怎么解决
7.都是通过规则约束吗,没有中间过程的约束吗,要设计中间奖励
8.每一部分得分是多少,怎么计算这个得分
9.大模型多模态有了解吗
10.介绍一下子注意力机制
11.为什么除以根号d
12.grpo损失函数怎么计算,prompt怎么参与训练,怎么影响模型的训练
13.Lora微调原理,怎么初始化,智怎么考虑
14.为什么更偏向全量微调,全量微调比Lora微调好在哪里
15.了解kvcache吗,为什么没有q
16.vIlm原理
17.t怎么影响模型的推理能力
18.讲一下grpo算法
19.grpo不稳定的原因,有什么可以改进的地方
1.项目怎么做的,用了什么技术
2.单一Agent还是多Agent
3.Agent里面有几个工具
4.为什么不用大尺度模型或者新的模型,怎么考虑
5.数据怎么构建的,怎么评价数据的质量
6.强化学习中遇到了什么问题,因为强化学习很容易训崩,怎么解决
7.都是通过规则约束吗,没有中间过程的约束吗,要设计中间奖励
8.每一部分得分是多少,怎么计算这个得分
9.大模型多模态有了解吗
10.介绍一下子注意力机制
11.为什么除以根号d
12.grpo损失函数怎么计算,prompt怎么参与训练,怎么影响模型的训练
13.Lora微调原理,怎么初始化,智怎么考虑
14.为什么更偏向全量微调,全量微调比Lora微调好在哪里
15.了解kvcache吗,为什么没有q
16.vIlm原理
17.t怎么影响模型的推理能力
18.讲一下grpo算法
19.grpo不稳定的原因,有什么可以改进的地方
全部评论
强烈推荐!这个笔记写得很清晰 http://github.com/AccumulateMore/CV
求问强化学习细节
相关推荐
查看8道真题和解析