前言🪐
本文由原paper作者授权【深蓝AI】编译首发,提出了框架LAW:使用一个隐式世界模型来基于驾驶动作和当前帧的场景特征来预测未来场景特征,欢迎各位阅读。
Enhancing End-to-End Autonomous Driving with Latent World Model
Yingyan Li, Lue Fan, Jiawei He, Yuqi Wang, Yuntao Chen, Zhaoxiang Zhang, Tieniu Tan

端到端的自动驾驶技术已经广受关注。目前的端到端方法大多依赖于诸如检测、跟踪和地图分割等感知任务的监督,以帮助学习场景表示。然而,这些方法需要大量的标注,限制了数据的可扩展性。为了解决这一挑战,作者提出了一种新颖的自监督方法,以增强端到端驾驶,而无需昂贵的标签。具体来说,作者提出的框架LAW使用一个隐式世界模型来基于驾驶动作和当前帧的场景特征来预测未来场景特征。预测的未来特征由将来实际观察到的特征进行监督。这种监督共同优化了特征学习和动作预测,极大地增强了驾驶性能。结果表明,作者的方法在开环和闭环基准测试中都实现了最先进的性能,而无需昂贵的标注。

▲图1|先前辅助任务与作者的隐式特征预测任务的比较。图(a)中先前的工作依赖于需要大量标注的辅助感知任务,而作者在图(b)中通过隐式世界模型来增强端到端驾驶模型。在训练期间,作者获取未来帧的隐式特征来共同监督当前帧的隐式特征和预测轨迹©️【深蓝AI】编译
端到端自动驾驶逐渐被公认为超越传统模块化自动驾驶的一个重要发展方向。传统自动驾驶中的规划方法无法直接访问原始传感器数据,导致信息丢失和误差累积。与此相反,端到端规划器直接处理传感器数据并输出规划决策,显示出极大的探索潜力。
大多数端到端自动驾驶方法虽然采用端到端模式,但依赖于检测、跟踪和地图分割等辅助任务来帮助模型更好地学习场景表示。这些辅助任务需要大量的手工标注,这不仅成本高昂,还限制了数据的可扩展性。相比之下,一些端到端方法不采用感知任务,只需通过记录的驾驶视频和轨迹来学习驾驶。这些方法能够利用海量的无标注驾驶数据,是一个有前景的方向。然而,仅依靠轨迹的有限指导,网络难以学习有效的场景表示来达到最佳驾驶性能。
为解决这一问题,作者通过自监督学习增强端到端驾驶,正如图1所示。作者提出了一个隐式世界模型,用于预测基于当前状态和自我动作的未来状态,其中状态以网络内的隐式场景特征表示。在训练过程中,作者提取未来帧的隐式特征来监督从隐式世界模型预测出的隐式特征,从而共同优化当前帧的隐式特征学习和轨迹预测。
此外,作者提出了一套简单但强大的端到端规划框架,用于提取视角特定的隐式特征,并作为所提出的隐式世界模型的测试平台。借助于这个规划器和隐式世界模型,作者的框架LAW在开环和闭环基准测试中都实现了最先进的结果。
总之,作者的主要贡献包括:
●作者提出了一个利用隐式世界模型的自监督学习方法,该方法增强了端到端自动驾驶框架的训练效果;
●作者的框架LAW在无需手动标注的情况下,在开环和闭环测试中均实现了最先进的结果。

▲图2|整体框架。首先,作者开发了一个端到端驾驶框架,用于提取视图隐式特征并预测路点。然后,作者通过隐式世界模型预测下一帧的视图隐式特征。预测的视图隐式特征由下一帧的观测视图隐式特征进行监督©️【深蓝AI】编译
在端到端的自动驾驶规划器中,作者首先利用视图注意力机制压缩视图特征
为观测视图隐式特征
。这一步骤中,每个视图查询
与其对应的图像特征
进行交叉注意力操作,生成
个观测视图隐式特征
。接下来,作者利用路点解码器从提取的观测视图隐式特征
中解码路点。具体来说,作者初始化
个路径点查询
,每个查询都是一个可学习的嵌入。这些路径点查询通过交叉注意力机制
与互动以输出路径点
:
br />

点击阅读原文直通论文
到此这篇自动驾驶数据标注教学视频(自动驾驶数据标注教学视频大全)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!
版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/sjkxydsj/19195.html