面试官超级无敌好,上来先说我优秀。50min项目介绍介绍到一半的时候面试官开始问场景和八股多模态模型的感知错误问题,怎么进行caption?面试官给出的一种思路是让模型生成一些结构化的描述,例如题目的点线面关系,grounding,counting等等,这种比cap更容易judge一些怎么解决感知错误,过度依赖文本信息的问题?我从预训练数据构造上去说的。提到了一篇论文,说是把图片mask掉,用rl去增强模型的感知能力qwen2.5-vl 的位置编码,Mrope,对rope有什么了解,旋转矩阵,外推性很好什么样的位置编码是好的?计算量要小,...Rope有缺点吗?qwen2.5vl 和 qwen...