给我面没招了,发点面经攒攒人品~1.项目怎么做的,用了什么技术2.单一Agent还是多Agent3.Agent里面有几个工具4.为什么不用大尺度模型或者新的模型,怎么考虑5.数据怎么构建的,怎么评价数据的质量6.强化学习中遇到了什么问题,因为强化学习很容易训崩,怎么解决7.都是通过规则约束吗,没有中间过程的约束吗,要设计中间奖励8.每一部分得分是多少,怎么计算这个得分9.大模型多模态有了解吗10.介绍一下子注意力机制11.为什么除以根号d12.grpo损失函数怎么计算,prompt怎么参与训练,怎么影响模型的训练13.Lora微调原理,怎么初始化,智怎么考虑14.为什么更偏向全量微调,全量微调比Lora微调好在哪里15.了解kvcache吗,为什么没有q16.vIlm原理17.t怎么影响模型的推理能力18.讲一下grpo算法19.grpo不稳定的原因,有什么可以改进的地方