VLM-AD：Cruise打造VLM大模型蒸馏端到端智驾模型新范式！

一、论文导读

在本文中，作者提出了一种利用视觉语言模型作为教师模型，通过提供结合了结构化的动作标签和非结构化的推理信息的额外监督来加强端到端驾驶模型的算法框架VLM-AD。与当前SOTA的E2E算法模型相结合后，在nuScenes数据集上，VLM-AD显著提高了规划准确性并减少了碰撞率

二、论文研究背景

最近，端到端的自动驾驶算法取得了非常不错的成绩。但是在检测一些长尾分布的目标时它们的表现会出现退化的问题。同时，人类驾驶员通常能够有效地处理此类情况，通过推理驾驶环境并相应地调整驾驶行为。这凸显了当前端到端模型中的训练GAP，这些模型仅依赖于轨迹监督作为点序列，缺乏学习丰富而强大的特征表示以实现更好的驾驶性能所必需的推理信息

考虑到上述问题，本文提出了一种简单而且有效的算法框架，基于VLM推理的动作文本注释构建了一个高质量的数据集，将来自VLM的驾驶推理知识提炼到端到端自动驾驶的Pipeline中，从而增强端到端自驾模型的推理能力

三、网络模型结构&技术细节梳理

下图展示了VLM-AD算法模型的整体网络结构

从上图来看，VLM-AD包括两个部分，分别是Annotation Branch（上半部分）和Auxiliary Heads（下半部分）

Annotation Branch：该分支利用VLM生成训练过程中的额外附加信息，创建了作为监督的高质量补充数据集
Auxiliary Heads：用于将额外的监督进行对齐，从而有效的集成到任意的端到端自驾模型上

VLM Text Annotation

VLM-AD的文字标注过程主要分成两类，一类是Freeform Reasoning Annotation，另外一类是Structured Action Annotation

Freeform Reasoning Annotation：生成包含丰富、高维的语言信息的自由非结构化答案。为了最大限度发挥VLM的推理能力，我们在提出具体问题之前提供详细的上下文描述作为初步指导，如下图所示

Structured Action Annotation：作者创建了三个不同的操作集，并提示VLM从这些预定义选项中选择答案，从而能够为每个问题获得一个操作注释，如下图所示

Auxiliary Heads

根据上一部分涉及到的两类数据标注可知，在辅助头模块部分有两个子部分进行呼应，分别是Text Feature Alignment和Structured Action Classification

Text Feature Alignment：由于有文字信息作为监督，VLM-AD首先采用CLIP模型将其转化为文字特征，然后初始化三类可学习的Text Query，并将这些Query与Ego特征拼接起来，形成此文本特征表示，随后通过MLP网络进行处理，生成最终的特征对齐输出

Structured Action Classification：与Text Feature Alignment部分类似，同样初始化三类可学习的Action Query，并将这些更新的Action Query与Ego特征拼接起来，为动作分类头创建特征表示，并将其传递给MLP网络，最终通过Softmax函数来生成动作预测