PointPainting通过将lidar的point投射到基于图片的语义分割网络中,并且将每一个类别的分数添加到每一个点上。
实验结果表明,在三个不同的点云目标检测方法 Point-RCNN, VoxelNet和PointPillars上,使用KITTI和nuScenes数据集都可以得到好的效果。同时,作者还研究了pointpainting这种融合办法的效果与语义分割输出的质量和形式之间的关系,以及在执行pipeline的时候怎样最小化延迟。

表2.KITTI测试BEV检测基准的结果。我们看到,Painted PointRCNN在BEV检测性能上设置了一个新的艺术状态(69.86 mAP)。模式是激光雷达(L),图像(I)和地图(M)。delta是由于painted的差异,即Painted PointRCNN减去PointRCNN。(BEV检测任务的目标是在给定的BEV图像中检测出不同类别的物体,基准评估指标是平均精度(Average Precision,AP),根据不同类别的AP值,可以得出每个类别的检测性能和整体的平均性能。)

表3.每个类nuScenes的性能。在nuScenes测试集上用平均精度(AP)或均值平均精度(mAP)测量检测的评价。缩写:建筑车辆(Ctr。Vhl.)、行人(Ped.)和交通锥(Tr. cone)。
补充说明:MAP相关概念https://zhuanlan.zhihu.com/p/
PointPainting在设计上是顺序的,这意味着对于3D检测的最终任务并不总是能够进行端到端优化。理论上,这意味着在性能方面存在次优性。然而,从经验来看,PointPainting比所有其他提出的融合方法都更有效。此外,顺序方法还有其他优点:(1)图像的语义分割通常是一个有用的独立中间产品,(2)在实时3D检测系统中,可以通过将图像和激光雷达网络流水线化来减少延迟,这样激光雷达点就可以用前一张图像的语义装饰,并且这样的流水线并不影响性能。
表4.nuScenes测试结果。检测性能由nuScenes detection score (NDS)和均值平均精度(mAP)来衡量。
优点:新的融合方法PointPainting用图像语义增强了点云。
(1)通用性——在KITTI和nuScenes基准测试中使用3种仅激光雷达的顶级方法时,实现了显著的改进;
(2)精确性—— PointRCNN的Painted版本在KITTI基准上达到了最先进的水平;
(3)健壮性——PointRCNN和PointPillars的Painted版本分别提高了KITTI和nuScenes测试集上所有类的性能。
(4)快速性——低延迟融合可以通过流水线的图像和激光雷达处理步骤来实现。

对于KITTI和nuScenes,激光雷达点云中的每个点分别为(x, y, z, r)或(x, y, z, r, t),其中x, y, z为每个激光雷达点的空间位置,r为反射率,t为激光雷达点的相对时间戳(适用于使用多次激光雷达扫描)。激光雷达点通过齐次变换然后投影到图像中进行变换。对于KITTI,这种转换是由Tcamera←lidar给出的。对于nuScenes的转换,激光雷达和摄像机在不同的频率下工作。完整的变换为:
变换为:激光雷达帧到自我-车辆帧;激光雷达捕获时的自我帧tl,到图像捕获时的自我帧tc;从自我到镜头。最后,摄像机矩阵M将这些点投影到图像中。
7.1 数据集
KITTI。KITTI数据集提供同步激光雷达点云和前视相机图像。它相对较小,只有7481个样本用于训练,7518个样本用于测试。
nuScenes。nuScenes数据集比KITTI数据集大。该系统在2Hz频率下对1000个20秒场景进行了3D边界框处理,得到28130个样本用于训练,6019个样本用于验证,6008个样本用于测试。nuScenes包括完整的自动驾驶汽车数据套件:同步激光雷达、摄像头和完全360覆盖的雷达。
7.2 语义网络细节
KITTI。对于KITTI上的实验,我们使用了 DeepLabv3+ 网络。该网络首先在Mapillary上进行预训练,然后在Cityscapes上进行微调,最后在KITTI像素级语义分割网络上再次进行微调。注意,在KITTI语义分割网络和物体检测中,bicycle的类定义是不同的。在检测中,自行车被定义为骑手+自行车;而在语义分割网络中,骑车人被定义为只骑自行车的一个单独的类别。因此,需要将有骑手的自行车映射到自行车类,同时将停放的自行车抑制到背景。我们在绘制完成后,通过将骑行者半径1米内的自行车类绘制的所有点映射到骑行者类;剩下的留给背景。
nuScenes。nuScenes上没有可用的公共语义分割方法,所以我们使用nuImages数据集训练了一个自定义网络。nuImages由100k图像组成,使用2D边框和所有nuScenes类的分割标签进行注释。分割网络使用ResNet骨干为FCN(Fully Convolutional Network,全卷积网络)分割头生成跨步8到64的特征,预测nuScenes分割分数。
7.3 激光雷达网络细节
nuScenes。我们在所有的nuScenes实验中都使用PointPillars。这需要将装饰的点云从7变为18,编码器现在有(18,64)个通道。为了确保绘制的效果是在艺术方法的状态下衡量的,我们对之前发布的PointPillars设置进行了一些改进,使mAP在nuScenes基准上提高了10%(表4)。我们将这个改进的基线称为PointPillars+。这些变化的灵感来自于修改支柱分辨率、网络架构、属性估计、样本加权和数据增强。首先,将柱的分辨率从0.25 m降低到0.2 m,以便更好地定位小物体。其次,网络架构进行了更改,以在网络的早期包含更多的层。第三,既不使用PointPillars也不使用PointPillars+预测属性,而是改进了属性估计启发式。不是使用每个类的最常用属性,而是使用每个框的预测速度和高度来更好地估计每个属性。第四,为了减少训练PointPillars过程中的类不平衡,采用基于样本的加权方法,根据样本中注释的数量对每个样本进行加权。第五,将全局偏航增益由π改为π/6。
8.1定量分析
8.1.1 KITTI
所有的检测结果都是使用官方KITTI评价检测的鸟瞰(BEV)和3D测量。BEV结果在这里给出,而3D结果包含在补充材料中。KITTI数据集被分为简单、中等和困难,官方KITTI排行榜是根据中等平均精度(AP)的表现进行排名的。
验证集 首先,我们研究了PointPainting在三种主要激光雷达探测器上的效果。图1和表1表明,PointPainting提高了PointPillars、VoxelNet和PointRCNN的检测性能。PointPainting语义信息导致了检测的广泛改进:27个比较(3个实验× 3类× 3层)中的24个被PointPainting改进了。虽然最大的变化是针对行人和自行车检测等更具挑战性的场景,但大多数网络甚至在汽车检测上也有改进。这表明PointPainting的实用是独立于底层激光雷达网络的。
测试集 这里我们将PointPainting与最先进的KITTI测试结果进行比较。虽然Painted PointPillars在val集上比Painted PointRCNN表现得更好,但在这两个PointPillars中,只有nuScenes有公共代码。因此,为了建立PointPainting的通用性,我们选择将Painted PointPillars的结果提交给nuScenes测试,并在Painted PointRCNN上使用我们的KITTI提交。
基于val和test之间的PointRCNN改进的一致性(分别为+2.73和+2.94),以及PointPainting的普遍性(表1),我们有理由相信表2中的其他方法肯定会使用PointPainting进行改进。PointPainting的强度、通用性、鲁棒性和灵活性表明它是图像-激光雷达融合的主要方法。
8.1.2 nuScenes
作为第一步,我们加强了PointPillars+的激光雷达网络基线。即使有了更强的基线,PointPainting在测试集上的平均精度(mAP)提高了+6.3(表4)。在nuScenes上,Painted PointPillars+仅被MEGVII的激光雷达方法击败。然而,MEGVII的网络对于实时系统是不切实际的,因为它是一个非常大的两级网络,需要高分辨率的输入,并使用多尺度输入和集成进行测试评估。因此,Painted PointPillars+是nuScenes上领先的实时方法。
8.2 定性分析

图4。KITTI结果的定性分析。我们创建了四个不同的对比图。对于每个比较,左上是原始点云,而右上是经过绘制后的点云,带有用于给汽车(橙色)、自行车(红色)和行人(蓝色)点着色的分割输出。PointPillars / Painted PointPillars预测的3D边界框显示在输入点云(左上/右上)和投影到图像(左下/右下)上。盒子的方向由连接底部中心和盒子前面的一条线表示。
在这里,我们通过图4中使用Painted PointPillars(Painted PointPillars是KITTI val集上表现最好的网络)的一些定性比较来给出评估指标的背景。在图A中,原始的PointPillars正确地检测到汽车,但遗漏了一个骑自行车的人。绘制的点云解决了这个问题,骑车人被检测到。它还可以为车辆提供更好的方向估计。基于激光雷达的方法的一个常见故障模式是行人和电线杆混淆(图3)。正如所料,PointPainting可以帮助解决这个问题(图B)。图C表明激光雷达检测步骤可以纠正错误的绘画。图像中的loose segmantation masks正确地画出了附近的行人,但他们身后的墙上会有多余的绘制。尽管有这些错误的语义信息,但该网络并没有预测出错误的行人。这就没有回答用于优化PointPainting的语义分割的精确特征(例如精度度vs召回率)。在图D中,由于两个复合错误,Painted PointPillars预测了左边的两个假的骑车人。首先,由于行人离停放的自行车太近,语义分割网络错误地将行人预测为骑车人。接下来,我们用来解决检测和分割注释之间的自行车定义差异的启发式方法(参见第3.2节)通过在所有自行车上绘制自行车者类加剧了问题。然而,在其他拥挤的场景中,绘制的点带来更好的行人定位,更少的误报,并更好地检测到远处的汽车。
在这里,我们对nuScenes数据集进行消融研究。所有的研究都使用了Painted PointPillars架构,并且与测试提交相比,只训练了训练时间的四分之一。使用单周期优化器,我们实现33.9 mAP和46 mAP。nuScenes val集上的NDS(nuScenes detection score)与完整训练的PointPillars+的44.85 mAP和56.34NDS相反。
质量 在PointPainting中,激光雷达点与图像的语义分割融合。我们研究了语义分割质量对最终检测性能的影响。利用nuScenes,我们通过使用来自训练的多个中间检查点,生成一系列具有不同分割质量的语义分割网络。如图5所示,改进的语义分割(以平均IOU(mIoU)衡量),导致改进的3D对象检测。对于一个上界,我们包含了一个“oracle”,它使用地面真相3D盒子(the ground truth 3D boxes)来绘制激光雷达点。这显著提高了检测性能(+27 mAP),这表明语义分割的进步将从根本上促进3D对象检测。由于一些限制,使用oracle并不能保证一个完美的mAP。首先,地面真理边界框可以包含不相关的点(例如来自地面)。其次,nuScenes注释所有包含单个激光雷达点的对象。将一个激光雷达点转换成一个精确的、定向的3D边界盒是很困难的。第三,我们训练它的总时间与其他消融研究相同,但它可能受益于更长的训练。最后,如果ground truth对象只包含几个点,PointPillars对点云的随机采样可以显著过滤或消除包含语义信息的点。
分数和标签 我们研究了分割预测格式对检测性能的影响。为此,我们将分割分数转换为一个热编码,有效地将每个像素标记为得分最高的类。当使用标签代替分数时,NDS没有变化,而mAP令人惊讶地高出+0.4。然而,这些收获是微不足道的,而且是在训练的噪音范围内。我们还假设,在未来的研究中,校准的分割分数和更大的PointPillars编码器的组合将表现更好。将这些结果与分割质量消融进行比较表明,未来的研究将更多地关注于提高分割质量,而不是表现。
在本文中,我们提出了一种新的序列融合方法PointPainting,该方法利用基于图像的语义绘制激光雷达点云。PointPainting使用多个不同的激光雷达网络在KITTI和nuScenes挑战中产生了最先进的结果。PointPainting框架非常灵活,可以将任何分割网络的输出与任何激光雷达网络相结合。这些结果的强度和普遍适用性表明,在融合图像和激光雷达信息进行3D目标检测时,PointPainting是领先的架构。
到此这篇pointnet++网络简图(network网络图)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/rfx/43677.html