给我面没招了,发点面经攒攒人品~实习项目拷打八股如下1.Attention的计算公式,为什么除以根号dk,能不能换成dk2.qwenvl的架构是什么,从输入到输出,说一下3.qwen3.5有哪些提升 优化4.Attention的时间复杂度是O(n平方),有没有看过哪些方法针对长上下文可以优化的5.有看过dsk发的论文吗?attention相关的6.GRPO PPO 目标函数,GRPO相比于PPO有什么区别,优点,以及GRPO的缺点7.DPO的目标函数,相比于上面俩有什么不同8.了解GPRO的重要性采样吗手撕两个玩家玩抽金币游戏,动态规划,写了状态转移方程和思路,让优化复杂度