面麻了给我,攒人品中~1.后训练了解吗?介绍一下dpo和ppo的区别,grpo以及改进思路,优势函数怎么设计等等2.SFT的loss是怎么计算的?项目用到lora,了解过qlora吗?两者有什么区别?3.介绍self-attention,问为什么要除以根号下dk,可以除以其他数吗,或者有没有等价的方法?说一下不同的attention及原理和公式(MHA、MQA、GQA、MLA)4.位置编码有了解哪些?rope了解吗?5.Agent了解吗?什么是skills?什么是mcp?有啥区别?agent里面memory问题你认为有哪些解决方案?长期记忆合短期记忆怎么处理?上下文机制怎么实现?Cot和ToT的核心原理?ReAct了解过吗?6.手撕三数之和