pointnet++网络简图（network网络图）

PointPainting通过将lidar的point投射到基于图片的语义分割网络中，并且将每一个类别的分数添加到每一个点上。
实验结果表明，在三个不同的点云目标检测方法 Point-RCNN, VoxelNet和PointPillars上，使用KITTI和nuScenes数据集都可以得到好的效果。同时，作者还研究了pointpainting这种融合办法的效果与语义分割输出的质量和形式之间的关系，以及在执行pipeline的时候怎样最小化延迟。

在这里插入图片描述
表2.KITTI测试BEV检测基准的结果。我们看到，Painted PointRCNN在BEV检测性能上设置了一个新的艺术状态(69.86 mAP)。模式是激光雷达(L)，图像(I)和地图(M)。delta是由于painted的差异，即Painted PointRCNN减去PointRCNN。（BEV检测任务的目标是在给定的BEV图像中检测出不同类别的物体，基准评估指标是平均精度（Average Precision，AP），根据不同类别的AP值，可以得出每个类别的检测性能和整体的平均性能。）
在这里插入图片描述
表3.每个类nuScenes的性能。在nuScenes测试集上用平均精度(AP)或均值平均精度(mAP)测量检测的评价。缩写:建筑车辆(Ctr。Vhl.)、行人(Ped.)和交通锥(Tr. cone)。

补充说明：MAP相关概念https://zhuanlan.zhihu.com/p/
PointPainting在设计上是顺序的，这意味着对于3D检测的最终任务并不总是能够进行端到端优化。理论上，这意味着在性能方面存在次优性。然而，从经验来看，PointPainting比所有其他提出的融合方法都更有效。此外，顺序方法还有其他优点:(1)图像的语义分割通常是一个有用的独立中间产品，(2)在实时3D检测系统中，可以通过将图像和激光雷达网络流水线化来减少延迟，这样激光雷达点就可以用前一张图像的语义装饰，并且这样的流水线并不影响性能。

表4.nuScenes测试结果。检测性能由nuScenes detection score (NDS)和均值平均精度(mAP)来衡量。

优点：新的融合方法PointPainting用图像语义增强了点云。

（1）通用性——在KITTI和nuScenes基准测试中使用3种仅激光雷达的顶级方法时，实现了显著的改进;

（2）精确性—— PointRCNN的Painted版本在KITTI基准上达到了最先进的水平;

（3）健壮性——PointRCNN和PointPillars的Painted版本分别提高了KITTI和nuScenes测试集上所有类的性能。

（4）快速性——低延迟融合可以通过流水线的图像和激光雷达处理步骤来实现。

在这里插入图片描述
对于KITTI和nuScenes，激光雷达点云中的每个点分别为(x, y, z, r)或(x, y, z, r, t)，其中x, y, z为每个激光雷达点的空间位置，r为反射率，t为激光雷达点的相对时间戳(适用于使用多次激光雷达扫描)。激光雷达点通过齐次变换然后投影到图像中进行变换。对于KITTI，这种转换是由Tcamera←lidar给出的。对于nuScenes的转换，激光雷达和摄像机在不同的频率下工作。完整的变换为:

T = T(camera←ego)T(egotc←egotl)T(ego←lidar)

变换为:激光雷达帧到自我-车辆帧;激光雷达捕获时的自我帧tl，到图像捕获时的自我帧tc;从自我到镜头。最后，摄像机矩阵M将这些点投影到图像中。

7.1 数据集

KITTI。KITTI数据集提供同步激光雷达点云和前视相机图像。它相对较小，只有7481个样本用于训练，7518个样本用于测试。

nuScenes。nuScenes数据集比KITTI数据集大。该系统在2Hz频率下对1000个20秒场景进行了3D边界框处理，得到28130个样本用于训练，6019个样本用于验证，6008个样本用于测试。nuScenes包括完整的自动驾驶汽车数据套件:同步激光雷达、摄像头和完全360覆盖的雷达。

7.2 语义网络细节

KITTI。对于KITTI上的实验，我们使用了 DeepLabv3+ 网络。该网络首先在Mapillary上进行预训练，然后在Cityscapes上进行微调，最后在KITTI像素级语义分割网络上再次进行微调。注意，在KITTI语义分割网络和物体检测中，bicycle的类定义是不同的。在检测中，自行车被定义为骑手+自行车；而在语义分割网络中，骑车人被定义为只骑自行车的一个单独的类别。因此，需要将有骑手的自行车映射到自行车类，同时将停放的自行车抑制到背景。我们在绘制完成后，通过将骑行者半径1米内的自行车类绘制的所有点映射到骑行者类;剩下的留给背景。

nuScenes。nuScenes上没有可用的公共语义分割方法，所以我们使用nuImages数据集训练了一个自定义网络。nuImages由100k图像组成，使用2D边框和所有nuScenes类的分割标签进行注释。分割网络使用ResNet骨干为FCN（Fully Convolutional Network，全卷积网络）分割头生成跨步8到64的特征，预测nuScenes分割分数。

7.3 激光雷达网络细节

nuScenes。我们在所有的nuScenes实验中都使用PointPillars。这需要将装饰的点云从7变为18，编码器现在有(18,64)个通道。为了确保绘制的效果是在艺术方法的状态下衡量的，我们对之前发布的PointPillars设置进行了一些改进，使mAP在nuScenes基准上提高了10%(表4)。我们将这个改进的基线称为PointPillars+。这些变化的灵感来自于修改支柱分辨率、网络架构、属性估计、样本加权和数据增强。首先，将柱的分辨率从0.25 m降低到0.2 m，以便更好地定位小物体。其次，网络架构进行了更改，以在网络的早期包含更多的层。第三，既不使用PointPillars也不使用PointPillars+预测属性，而是改进了属性估计启发式。不是使用每个类的最常用属性，而是使用每个框的预测速度和高度来更好地估计每个属性。第四，为了减少训练PointPillars过程中的类不平衡，采用基于样本的加权方法，根据样本中注释的数量对每个样本进行加权。第五，将全局偏航增益由π改为π/6。

8.1定量分析

8.1.1 KITTI

所有的检测结果都是使用官方KITTI评价检测的鸟瞰(BEV)和3D测量。BEV结果在这里给出，而3D结果包含在补充材料中。KITTI数据集被分为简单、中等和困难，官方KITTI排行榜是根据中等平均精度(AP)的表现进行排名的。

验证集首先，我们研究了PointPainting在三种主要激光雷达探测器上的效果。图1和表1表明，PointPainting提高了PointPillars、VoxelNet和PointRCNN的检测性能。PointPainting语义信息导致了检测的广泛改进:27个比较(3个实验× 3类× 3层)中的24个被PointPainting改进了。虽然最大的变化是针对行人和自行车检测等更具挑战性的场景，但大多数网络甚至在汽车检测上也有改进。这表明PointPainting的实用是独立于底层激光雷达网络的。

测试集这里我们将PointPainting与最先进的KITTI测试结果进行比较。虽然Painted PointPillars在val集上比Painted PointRCNN表现得更好，但在这两个PointPillars中，只有nuScenes有公共代码。因此，为了建立PointPainting的通用性，我们选择将Painted PointPillars的结果提交给nuScenes测试，并在Painted PointRCNN上使用我们的KITTI提交。

基于val和test之间的PointRCNN改进的一致性(分别为+2.73和+2.94)，以及PointPainting的普遍性(表1)，我们有理由相信表2中的其他方法肯定会使用PointPainting进行改进。PointPainting的强度、通用性、鲁棒性和灵活性表明它是图像-激光雷达融合的主要方法。

8.1.2 nuScenes

作为第一步，我们加强了PointPillars+的激光雷达网络基线。即使有了更强的基线，PointPainting在测试集上的平均精度(mAP)提高了+6.3(表4)。在nuScenes上，Painted PointPillars+仅被MEGVII的激光雷达方法击败。然而，MEGVII的网络对于实时系统是不切实际的，因为它是一个非常大的两级网络，需要高分辨率的输入，并使用多尺度输入和集成进行测试评估。因此，Painted PointPillars+是nuScenes上领先的实时方法。

8.2 定性分析

在这里插入图片描述
图4。KITTI结果的定性分析。我们创建了四个不同的对比图。对于每个比较，左上是原始点云，而右上是经过绘制后的点云，带有用于给汽车(橙色)、自行车(红色)和行人(蓝色)点着色的分割输出。PointPillars / Painted PointPillars预测的3D边界框显示在输入点云(左上/右上)和投影到图像(左下/右下)上。盒子的方向由连接底部中心和盒子前面的一条线表示。

在这里，我们通过图4中使用Painted PointPillars(Painted PointPillars是KITTI val集上表现最好的网络)的一些定性比较来给出评估指标的背景。在图A中，原始的PointPillars正确地检测到汽车，但遗漏了一个骑自行车的人。绘制的点云解决了这个问题，骑车人被检测到。它还可以为车辆提供更好的方向估计。基于激光雷达的方法的一个常见故障模式是行人和电线杆混淆（图3）。正如所料，PointPainting可以帮助解决这个问题(图B)。图C表明激光雷达检测步骤可以纠正错误的绘画。图像中的loose segmantation masks正确地画出了附近的行人，但他们身后的墙上会有多余的绘制。尽管有这些错误的语义信息，但该网络并没有预测出错误的行人。这就没有回答用于优化PointPainting的语义分割的精确特征(例如精度度vs召回率)。在图D中，由于两个复合错误，Painted PointPillars预测了左边的两个假的骑车人。首先，由于行人离停放的自行车太近，语义分割网络错误地将行人预测为骑车人。接下来，我们用来解决检测和分割注释之间的自行车定义差异的启发式方法(参见第3.2节)通过在所有自行车上绘制自行车者类加剧了问题。然而，在其他拥挤的场景中，绘制的点带来更好的行人定位，更少的误报，并更好地检测到远处的汽车。

在这里，我们对nuScenes数据集进行消融研究。所有的研究都使用了Painted PointPillars架构，并且与测试提交相比，只训练了训练时间的四分之一。使用单周期优化器，我们实现33.9 mAP和46 mAP。nuScenes val集上的NDS（nuScenes detection score）与完整训练的PointPillars+的44.85 mAP和56.34NDS相反。

质量在PointPainting中，激光雷达点与图像的语义分割融合。我们研究了语义分割质量对最终检测性能的影响。利用nuScenes，我们通过使用来自训练的多个中间检查点，生成一系列具有不同分割质量的语义分割网络。如图5所示，改进的语义分割(以平均IOU(mIoU)衡量)，导致改进的3D对象检测。对于一个上界，我们包含了一个“oracle”，它使用地面真相3D盒子（the ground truth 3D boxes）来绘制激光雷达点。这显著提高了检测性能(+27 mAP)，这表明语义分割的进步将从根本上促进3D对象检测。由于一些限制，使用oracle并不能保证一个完美的mAP。首先，地面真理边界框可以包含不相关的点(例如来自地面)。其次，nuScenes注释所有包含单个激光雷达点的对象。将一个激光雷达点转换成一个精确的、定向的3D边界盒是很困难的。第三，我们训练它的总时间与其他消融研究相同，但它可能受益于更长的训练。最后，如果ground truth对象只包含几个点，PointPillars对点云的随机采样可以显著过滤或消除包含语义信息的点。

分数和标签我们研究了分割预测格式对检测性能的影响。为此，我们将分割分数转换为一个热编码，有效地将每个像素标记为得分最高的类。当使用标签代替分数时，NDS没有变化，而mAP令人惊讶地高出+0.4。然而，这些收获是微不足道的，而且是在训练的噪音范围内。我们还假设，在未来的研究中，校准的分割分数和更大的PointPillars编码器的组合将表现更好。将这些结果与分割质量消融进行比较表明，未来的研究将更多地关注于提高分割质量，而不是表现。

在本文中，我们提出了一种新的序列融合方法PointPainting，该方法利用基于图像的语义绘制激光雷达点云。PointPainting使用多个不同的激光雷达网络在KITTI和nuScenes挑战中产生了最先进的结果。PointPainting框架非常灵活，可以将任何分割网络的输出与任何激光雷达网络相结合。这些结果的强度和普遍适用性表明，在融合图像和激光雷达信息进行3D目标检测时，PointPainting是领先的架构。

到此这篇pointnet++网络简图（network网络图）的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章，希望大家都能在编程的领域有一番成就！

上一篇： mha是什么意思的缩写民航（航空mmr是什么意思）

下一篇： treechada官网（treechada牌子好吗）

版权声明：
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符，请将相关资料发送至xkadmin@xkablog.com进行投诉反馈，一经查实，立即处理！

转载请注明出处，原文链接：https://www.xkablog.com/rfx/43677.html