【ICCV 2023】北航出品!基于语义感知的纯视觉3D目标检测SOTA算法方案SA-BEV

一、论文导读

在本文中,作者提出了一种充分利用图像语义信息生成BEV空间特征的感知算法SA-BEV,缓解了BEV空间中大量背景信息淹没前景目标特征的问题,超越了当时现有的3D目标检测算法,在nuScenes数据上实现了SOTA

二、论文研究背景

目前,由于纯视觉的BEV感知算法部署成本低得到了来自工业界和学术界的广泛关注,同时以LSS分支的BEV生成范式部署更加友好得到了工业界的广泛采纳和使用。该范式的核心思路是根据图像特征预测离散深度信息生成图像特征点云,然后将这些图像特征点云投影到BEV空间。但是LSS的BEV生成范式没有充分利用图像特征的语义信息并且会注入大量淹没物体特征的背景信息

考虑到上述问题,SA-BEV在生成BEV特征的过程中,对无关背景信息进行过滤,从而有效提升了感知算法的检测性能。下图展示了背景信息过滤前后的可视化结果图(上侧未过滤下侧已过滤)。

此外,作者借鉴了基于激光雷达目标检测算法中的数据增强策略多任务学习中具体任务和跨任务学习的特点进行了相关改进,最终实现了SA-BEV感知算法模型,取得了当时nuScenes数据集的SOTA。

三、网络模型结构&技术细节梳理

下图展示了SA-BEV算法模型的整体网络结构

通过上面的网络结构图可以看出,SA-BEV算法模型主要由Semantic-Aware BEV PoolingBEV-Paste Data Augmentation以及Multi-Scale Cross-Task Head三个子模块构成。

核心创新点一:Semantic-Aware BEV Pooling模块

考虑到前景目标的语义特征投影到BEV空间中约占总特征数的2%,大量背景信息会淹没目标特征,降低模型的检测精度。SA-BEV算法模型采用了Semantic-Aware BEV Pooling模块来缓解这一过程,其中Semantic-Aware BEV Pooling模块的网络结构如下图所示。

具体而言,Semantic-Aware BEV Pooling模块包含两个背景信息抑制操作,分别是

  • 低语义特征抑制:如果基于特征图预测出来的前景语义得分低于阈值,那么该部分的特征就不会参与到最终BEV特征的构建过程中
  • 低深度概率抑制:如果某个特征点对应的相机射线上其深度概率分布低于某个阈值,低于阈值的部分也不会参与到最终的BEV特征构建过程

由于将低置信度的深度概率以及前景特征都过滤掉了,最终生成的BEV语义特征称之为基于语义感知的BEV特征图。

核心创新点二:BEV-Paste Data Augmentation策略

GT-Paste 是基于LiDAR的3D目标检测器中常用的数据增强策略。然而,将他们应用于基于视觉的算法当中存在着如下的一些问题

  • 通过对图像上的边界框对目标进行采样无法像点云数据那样获得其纯数据
  • 将对象粘贴到另一幅图像可能会错误地遮挡原始对象并导致数据丢失
  • 不同帧的光照变化也使粘贴的目标看起来不自然

基于上述提到的相关问题,SA-BEV提出了BEV-Paste数据增强策略,如下所示。

具体而言,从图像特征转化而来的语义BEV特征近似地代表了帧内所有物体的信息。这使得在训练阶段添加任意两帧的BEV特征等同于将两帧中包含的物体聚合到一帧中。所以,在实际操作的过程中,SA-BEV选择的是同一个Batch内的两帧,从而确保二者满足相同的分布

核心创新点三:Multi-Scale Cross-Task Head模块

在以往LSS范式的BEV特征生成过程中,离散深度信息模块同时充当了深度预测和语义特征预测的角色,而这一过程属于多任务学习的范畴。相关的研究表明,任务指定信息和跨任务信息对于获得多任务的全局最优解都很重要如果深度分布和语义分割由同一个网络分支预测网络只从图像特征中提取跨任务信息无法在每个任务上都达到最优

因此,SA-BEV提出了Multi-Scale Cross-Task Head模块,如下图所示。

通过上图可以看出,语义预测的分支和离散深度预测的分支既有独立预测,又包括信息互相流动的过程,充分提取到了指定任务和跨任务的相关信息。

四、实验结果部分

整体实验对比

可视化结果对比

#牛客创作赏金赛##论文##算法##自动驾驶##互联网#
智驾感知论文集合 文章被收录于专栏

记录一位智驾感知算法工程师的日常读论文笔记(不定期更新~)

全部评论

相关推荐

03-19 18:27
已编辑
门头沟学院 C++
26学院本太难了,很多公司机筛就给我刷了。机会都难拿到如果是简历存在问题也欢迎拷打————————————————————分割线——————————————————————2026.3.4更新:发完贴之后,时不时投递又收到了不少的笔试/面试邀请。主要是之前投递简历出去之后基本上都是沉默状态,年后好转了不少timeline:2026.01.21 文远知行笔试,半年多没刷算法题 ->挂 (后续HR说春招可以重新安排笔试)2026.2.4     小鹏汇天 技术一面,第二周收到结果 ->挂2026.2.12   大众Cariad代招 技术二面 ->Offer2026.2.28   多益网络技术面试,由于风评太差,一直在犹豫要不要接面试 ->推迟-----------分割线-----------2026.3 月前的某一天,临时去电网报名了二批计算机岗位的笔试2026.3.6 从上家公司实习离职,氛围最好的一家公司,leader 说可以帮忙转正,但是流程太长,而且我们部门据说只有一个 hc,更想要研究生,我很有可能是会被签外包公司在这里干活,就离职了。2026.3.9 入职新公司,大众Cariad 以外部公司的身份进组,项目组签了三年,后续三年应该都可以在这里呆,不知道有没有希望原地跳槽。2026.3.10 电网考试居然说我通过资格审查了,短信约我去参加资格审查,请假一天,买了 12 号晚上的机票回成都2026.3.15 参加国家电网三新计算机类的笔试2026.3.17 电网出成绩了,感觉很低。觉得已经🈚️了2026.3.18 收到电网面试通知,通知 3.22-3.25 这个时间去面试,我的岗位只招 1 个人。据说面试只有 2-3 人,不知道能不能成功
点赞 评论 收藏
分享
03-10 22:53
吉林大学 golang
点赞 评论 收藏
分享
评论
3
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务