1.写GRPO的公式;2.不同RL算法的区别;3. 用户给了一个非常抽象的需求,如何设计系统;4.为什么分类用CE loss,有什么好处?5. MSE loss的误差是什么分布? CE loss的误差是什么分布?6. 代码:给你 旋转后 的数组 nums 和一个整数 target,如果 nums 中存在这个目标值 target ,则返回它的下标,否则返回 -1。(二份查找)7. 方向;未来规划;MLLM如何赋能业务?