最新端到端自动驾驶综述，来龙去脉详尽梳理

作者：Li Chen

4689 次浏览

37 次

2023-7-27

编辑推荐:

本文主要介绍了端到端自动驾驶它的动机是什么，有哪些路线图、方法论，其挑战和未来趋势是怎么样的。希望对你的学习有帮助。
本文来自于微信公众号焉知汽车，由火龙果软件Linda编辑，推荐。

今年的CVPR最佳论文颁给了端到端自动驾驶，在汽车人看来，这几乎代表着一种共识：端到端自动驾驶是行业的未来。那端到端自动驾驶它的动机是什么，有哪些路线图、方法论，其挑战和未来趋势是怎么样的，今天自动驾驶之心带来端到端自动驾驶领域综述。自动驾驶社区见证了采用端到端算法框架方法的快速增长，利用原始传感器输入来生成车辆运动规划，而不是专注于检测和运动预测等单个任务。与模块化pipeline相比，端到端系统受益于感知和规划的联合特征优化。由于大规模数据集的可用性、闭环评估以及对自动驾驶算法在具有挑战性的场景中有效执行的日益增长的需求，该领域蓬勃发展。在这项调研中，通过对250多篇论文进行了全面分析，涵盖了端到端自动驾驶的动机、路线图、方法、挑战和未来趋势。深入探讨了几个关键挑战，包括多模态、可解释性、因果混淆、稳健性和世界模型等。此外，讨论了基础模型和视觉预训练方面的最新进展，以及如何将这些技术纳入端到端驾驶框架。

1、简介

传统的自动驾驶系统采用模块化部署策略，其中每个功能，如感知、预测和规划，都是单独开发并集成到车载车辆中的。负责产生转向和加速输出的规划或控制模块在决定驾驶体验方面发挥着至关重要的作用。模块化pipeline中最常见的规划方法包括使用复杂的基于规则的设计，这些设计在解决驾驶时出现的大量情况时往往无效。因此，越来越多的趋势是利用大规模数据，并将基于学习的规划作为一种可行的替代方案。

端到端自动驾驶系统可定义为完全可微的过程，以原始传感器数据为输入，并产生规划和/或低级控制动作作为输出。下图1(a)-(b)说明了经典范式和端到端范式之间的差异。

传统范式将每个组件的输出(如边界框和车辆轨迹)直接输入到后续单元(虚线箭头)中。相反，端到端范式在组件之间传播特征表示(灰色实心箭头)。优化的函数被设置为，例如，规划性能，并且通过反向传播将损失最小化(红色箭头)。在此过程中，任务得到了联合和全局优化。

在本次调研中，对这一新兴主题进行了广泛的回顾。上面图1概述了本工作。

首先讨论端到端自动驾驶系统的动机和路线图；

端到端方法可以大致分为模仿学习和强化学习，对这些方法进行了简要的回顾；

涵盖了闭环和开环评估的数据集和基准；

总结了一系列关键挑战，包括可解释性、泛化、世界模型、因果混淆等；

讨论了认为应该被社区接受的未来趋势，以纳入从数据引擎、大型基础模型和V2X的最新发展等。

端到端系统的动机

在经典pipeline中，每个模型都为一个独立的组件服务，并对应于一个特定的任务(例如，红绿灯检测)。这样的设计在可解释性、可验证性和易于调试方面是有益的。然而，由于各模块的优化目标不同，感知中的检测追求平均精度(mAP)，而规划则以驾驶安全和舒适为目标，因此整个系统可能无法与统一的目标(即最终规划/控制任务)保持一致。随着顺序程序的进行，每个模块的误差可能会加剧，并导致自动驾驶系统的信息丢失。此外，多任务、多模型部署可能会增加计算负担，并可能导致计算的次优使用。

与经典范式相比，端到端的自动驾驶系统提供了几个优势。

它简单地将感知、预测和规划结合到一个可以联合训练的单一模型中。

整个系统，包括其中间表示，都朝着最终任务进行了优化。

共享主干网提高了计算效率。

数据驱动的优化有可能通过简单地扩展训练资源来改进系统的能力。

请注意，端到端范式并不一定表示一个只有规划/控制输出的黑盒。它可以是具有中间表示和输出的模块化的(上图1(b))，如在经典方法中一样。事实上，一些最先进的系统提出了模块化设计，但同时优化了所有组件，以实现卓越的性能。

路线图

下图2描绘了端到端自动驾驶关键成就的时序路线图，其中每个部分都表明了显著的范式转变或性能提升。

端到端自动驾驶的历史可以追溯到1988年的ALVINN，其中输入是来自相机和激光测距仪的两个“视网膜”，以及一个简单的神经网络生成的转向输出。Bojarski等人设计了一个用于模拟和道路测试的端到端CNN原型系统，在GPU计算的新时代重新确立了这一理念。随着深度神经网络的发展，在模仿学习和强化学习方面都取得了显著进展。LBC和相关方法中提出的策略通过模仿行为良好的专家策略范式，显著提高了闭环性能。由于专家策略和学习策略之间的差异，为了提高概括能力，几篇论文建议在训练期间汇总策略数据。

端到端自动驾驶在2021年出现了一个重要的转折点。在合理的计算预算内，有了各种各样的传感器配置，人们的注意力集中在结合更多的模态和高级架构(例如，Transformer)，以捕捉全局上下文和代表性特征，如TransFuser和许多变体。结合对模拟环境的更多见解，这些先进的设计大大提高了闭环CARLA基准的性能。为了提高自动驾驶系统的可解释性和安全性，NEAT、NMP和BDD-X等方法明确纳入了各种辅助模块，以更好地监督学习过程或利用注意力可视化。最近的工作优先生成安全关键数据，预训练为策略学习策划的(大型)基础模型或骨干，并倡导模块化端到端规划理念。同时，引入了新的、具有挑战性的CARLAv2和nuPlan基准，以促进对该领域的研究。

相关调研的比较

此次调研与以前的相关调研之间是有明显差异的。之前的一些调研涵盖了端到端系统意义上与本文类似的内容。然而，它们没有涵盖随着该领域最近的重大过渡而出现的新的基准和方法，而对前沿和挑战的重视程度较低。先前的其余工作集中在该领域的特定主题上，如模仿学习或强化学习。相比之下，作者的调研提供了有关该领域最新发展和技术的最新信息，涵盖了广泛的主题，并对关键挑战进行了深入讨论。

贡献

总之，本次调研有三个关键贡献：

首次对端到端自动驾驶进行了全面分析，包括高级动机、方法、基准等。提倡将算法框架作为一个整体来设计，最终目标是实现安全舒适的驾驶，而不是优化单个模块。

广泛调研了并行方法所面临的关键挑战。在调研的250多篇论文中，作者总结了主要方面并进行了深入分析，包括可推广性、语言指导学习、因果混淆等主题。

涵盖了如何接受大型基础模型和数据引擎的更广泛影响。

这一研究路线及其提供的大规模高质量数据可以大大推动这一领域的发展。为了促进未来的研究，笔者保持了一个活跃的存储库，更新了新的文献和开源项目。

2、方法

本节回顾了大多数现有的端到端自动驾驶方法背后的基本原理。

模仿学习

模仿学习(IL)，也称为从演示中学习，通过模仿专家的行为来训练智能体学习最优策略。IL需要一个数据集集ξ，其中包含根据专家策略

πβ收集的轨迹，其中每个轨迹是状态-动作对的序列。IL的目标是学习与与πβ匹配的智能体策略π。IL的一个重要且广泛使用的类别是行为克隆(BC)，它将问题简化为监督学习。逆最优控制(IOC)，也称为逆强化学习(IRL)是另一种利用专家演示学习奖励函数的IL方法。

行为克隆

在行为克隆中，将智能体的策略与专家的策略相匹配的目标是通过最小化规划损失来实现的，这是一个在选定数据集上的监督学习问题：

πθ。在这里πθ表示损失函数，用于测量智能体动作和专家动作之间的距离。

BC在驾驶任务中的早期应用利用端到端神经网络从相机输入中生成控制信号。已经提出了进一步的增强，如多传感器输入、辅助任务和改进的专家设计，以使基于BC的端到端驾驶模型能够处理具有挑战性的城市驾驶场景。行为克隆由于其简单高效而具有优势，因为它不需要手工制作的奖励设计，这对RL至关重要。但是，行为克隆存在一些常见问题。在训练过程中，行为克隆将每个状态视为独立且相同的分布，从而产生一个重要的问题，称为协变量移位。对于一般的IL，已有了几种策略上的方法来解决这个问题。在端到端自动驾驶的背景下，DAgger已在中被采用。行为克隆的另一个常见问题是因果混淆，模仿者利用并依赖于某些输入组件和输出信号之间的虚假相关性。中已经在端到端自动驾驶的背景下讨论了这个问题。

逆最优控制

传统的IOC算法从专家演示中学习马尔可夫决策过程(MDP)中的未知奖励函数R(s,a)，其中专家的奖励函数可以表示为特征的线性组合。然而，在连续的高维自动驾驶场景中，奖励的定义是隐含的，很难优化。

生成对抗性模仿学习(GAIL)是IOC中的一种专门方法，它将奖励函数设计为对抗性目标，以区分专家和学习的策略，类似于生成对抗性网络(GANs)的概念。最近，一些工作提出了使用辅助感知任务来优化成本量或代价函数。由于成本是报酬的替代表示，作者将这些方法归类为属于IOC领域。将成本学习框架定义如下：端到端方法结合其他辅助任务学习合理的成本c(·)，并使用简单的不可学习算法轨迹采样器来选择成本最小的轨迹τ*，如下图3所示。

因此，成本学习范式分为两个方面：如何设计成本和如何对轨迹进行采样，以端到端的方式进行优化。

关于成本设计，NMP利用鸟瞰图(BEV)中的学习成本量。它还并行地进行目标检测，但不将成本与检测输出直接联系起来。Wang等人预测所有智能体的未来运动，并使用联合能量作为交互成本来生成最终规划结果。建议估计一组概率语义占用或freespace层作为中间表示，这为车辆不应在何处机动以确保安全提供了明确的线索。另一方面，轨迹通常从固定的专家轨迹集中采样，或通过运动学模型的参数采样进行处理。然后，像经典IOC方法一样，采用最大边际损失，以奖励专家演示的成本最低，而其他演示的成本较高。

成本学习方法仍然存在一些挑战。特别是，为了产生更现实的成本，通常会结合高精地图、辅助感知任务和多个传感器，这增加了学习和构建多模态多任务框架数据集的难度。为了解决这一问题，MP3、ST-P3和IVMP放弃了先前工作中使用的HD Map输入，并利用预测的BEV地图来计算交通规则的成本，例如保持靠近中心线和避免与道路边界碰撞。一般来说，上述成本学习方法显著提高了自动驾驶汽车决策的安全性和可解释性，作者认为，受行业启发的端到端系统设计是现实世界应用的可行方法。

强化学习

强化学习(RL)是一个通过试错进行学习的领域。深度Q网络(DQN)在Atari 2600基准上实现人类级控制的成功普及了深度强化学习。DQN训练一个称为critic(或Q网络)的神经网络，该网络将当前状态和一个动作作为输入，并预测该动作的未来奖励折扣(当之后遵循相同的策略时)。当时的策略是通过选择具有最高Q值的动作来隐含地定义。RL需要一个允许执行潜在不安全操作的环境，因为它需要探索(例如，有时在数据收集期间执行随机操作)。此外，与监督学习相比，RL需要更多的数据来进行训练。因此，现代RL方法通常在多个环境中并行化数据收集。在现实世界的汽车中满足这些要求带来了巨大的挑战。因此，几乎所有在自动驾驶中使用RL的论文都只研究了模拟技术。大多数工作都使用了DQN的不同扩展。到目前为止，社区还没有就特定的RL算法达成一致。

强化学习已经证明，在一条空荡荡的街道上，在一辆真正的汽车上成功地学习了车道跟随。尽管早期取得了令人鼓舞的结果，但必须注意的是，三十年前通过模仿学习已经完成了类似的任务。到目前为止，还没有报告显示使用RL进行端到端训练的结果与模仿学习具有竞争力。在与CARLA模拟器的发布一起进行的直接比较中，强化学习远远落后于模块化pipeline和端到端模仿学习。这种失败的原因可能是通过RL获得的梯度不足以训练驾驶所需的深度感知架构(ResNet规模)。RL成功的Atari等基准测试中使用的模块相对较浅，仅由几层组成。

当与监督学习相结合时，强化学习已成功应用于自动驾驶。隐含可供性和GRI都使用监督学习和语义分割、分类等辅助任务来预训练其架构的CNN编码器部分。在第二阶段，预训练的编码器被冻结，并且浅策略头被使用现代版本的Q学习在来自冻结图像编码器的隐含可供性上进行训练。在撰写本文时，这两件工作都在CARLA排行榜上报道了最先进的表现。强化学习也已成功用于微调CARLA上的完整架构，这些架构是使用模仿学习预训练的。

RL还有效地应用于规划或控制任务，其中网络可以访问特权模拟器信息。本着同样的精神，RL已被应用于自动驾驶数据集管理。Roach在BEV语义分割上训练RL方法，并使用该策略自动收集用于训练下游模仿学习智能体的数据集。WoR采用Q函数和表格动态编程为静态数据集生成附加或改进的标签。

该领域未来的挑战是将研究结果从模拟转移到现实世界。在RL中，目标被表示为奖励函数，大多数算法要求这些奖励函数是密集的，并在每个环境步骤提供反馈。当前的工作通常使用简单的目标，如前进和避免碰撞，并将它们线性组合。这些过于简单的奖励函数因鼓励冒险行为而受到批评。设计或学习更好的奖励函数仍然是一个悬而未决的问题。另一个方向是开发可以处理稀疏奖励的RL算法，从而直接实现相关指标的优化。RL可以与世界模型有效结合，尽管这带来了具体挑战。当前的自动驾驶RL解决方案严重依赖于场景的低维表示。

3、基准

自动驾驶系统需要对其可靠性进行全面评估，以确保安全。为了适应这一点，研究人员必须使用适当的数据集、模拟器和指标对这些系统进行基准测试。本节描述了端到端自动驾驶系统的两种大规模基准测试方法：(1)模拟中的在线或闭环评估，以及(2)人类驾驶数据集上的离线或开环评估。作者特别关注更有原则的在线设置，并简要总结了离线评估的完整性。

在线评估(闭环)

在现实世界中进行自动驾驶系统测试成本高昂且风险巨大。为了应对这一挑战，模拟是一种可行的替代方案。模拟器有助于快速原型设计和测试，实现思想的快速迭代，并提供对广泛场景的低成本访问。此外，模拟器还提供了可靠、准确地测量性能的工具。然而，它们的主要缺点是，在模拟环境中获得的结果不一定能推广到现实世界。

闭环评估涉及构建一个模拟现实世界驾驶环境的模拟环境。驾驶系统的评估需要将系统部署在模拟环境中，并随着时间的推移测量其性能。该系统必须在模拟交通中安全导航，同时向指定的目标位置前进。开发此类评估模拟器主要涉及三个子任务：参数初始化、交通模拟和传感器模拟。作者在下面简要介绍了这些子任务，然后总结了当前可用的闭环基准测试开源模拟器。

参数初始化

模拟提供了对环境的高度控制的好处，包括天气和照明条件、地图和3D资源，以及低级别属性，如交通场景中模拟的排列和姿态。虽然功能强大，但这些参数的数量是巨大的，这导致了一个具有挑战性的设计问题。目前的模拟器通过两种方式来解决这个问题：

程序生成：传统上，初始参数由3D艺术家和工程师手动调整，称之为程序生成。每个道具通常都是用手动设置的参数从概率分布中采样的，这是一个耗时的过程，需要大量的专业知识。这限制了可扩展性。尽管如此，这仍然是最常用的初始化方法之一。过程生成算法将规则、启发式和随机化相结合，以创建不同的道路网络、交通模态、照明条件和模拟布局。

数据驱动：模拟初始化的数据驱动方法旨在学习所需的参数。可以说，最简单的数据驱动初始化方法是直接从真实世界的驾驶数据日志中进行采样。在该方法中，直接从预先记录的数据集中提取诸如道路地图或交通模态之类的参数。日志采样的优势在于它能够捕捉真实世界数据中存在的自然变化，从而产生比程序生成更真实的模拟场景。然而，它可能不包括对测试自动驾驶系统的稳健性至关重要的罕见或极端情况。可以对初始参数进行优化，以增加此类场景的表示。另一种先进的数据驱动的初始化方法是生成建模，其中利用机器学习算法来学习真实世界数据的底层结构和分布。然后，这些算法可以生成与现实世界相似但未包含在原始数据中的新场景。

交通模拟

交通模拟涉及在具有真实运动的环境中生成和定位虚拟实体。这些实体通常包括车辆(如卡车、汽车、摩托车、自行车等)和行人。交通模拟器必须考虑速度、加速度、制动、障碍物和其他实体行为的影响。此外，红绿灯状态必须定期更新，以模拟真实的城市驾驶。有两种流行的交通模拟方法，作者将在下面进行描述。

基于规则：基于规则的交通模拟器使用预先定义的规则来生成交通实体的运动。这种方法实现起来很简单，但产生的运动可能不太现实。这一概念最突出的实现是智能驱动程序模型(IDM)。IDM是一个跟车模型，它根据每辆车的当前速度、前车的速度和所需的安全距离来计算每一辆车的加速度。尽管IDM被广泛使用，但它可能不足以捕捉城市环境中复杂的相互作用。

数据驱动：真实的人类交通行为是高度互动和复杂的，包括变道、并线、突然停车等。为了对这种行为进行建模，数据驱动的交通模拟利用了从真实世界驾驶中收集的数据。这些模型可以捕捉更细微、更真实的行为，但需要大量的标注数据进行训练。针对这项任务，已经有了各种各样的基于学习的技术。

传感器仿真

传感器仿真对于评估端到端的自动驾驶系统至关重要。这涉及生成仿真的原始传感器数据，例如驾驶系统将从仿真器中的不同视点从环境接收的相机图像或激光雷达扫描。这个过程需要考虑噪声和遮挡，以便真实地评估自动驾驶系统的性能。关于传感器仿真的文献中有两个分支，如下所述。

基于图形：最近的计算机图形模拟器使用环境的3D模型，以及车辆和交通实体模型，通过传感器中物理渲染过程的近似来生成传感器数据。例如，在模拟相机图像时，这可以考虑真实世界环境中存在的遮挡、阴影和反射。然而，基于图形的模拟的真实性通常较差，或者以极其繁重的计算为代价，这使得并行化变得很有意义。它与3D模型的质量以及传感器建模中使用的近似值密切相关。中提供了基于图形的驾驶数据渲染的全面综述。

数据驱动：数据驱动的传感器仿真利用并调整真实世界的传感器数据，以创建一个新的仿真，其中自车辆和背景交通的移动方式可能与原始数据中的移动方式不同。一种流行的方法是使用神经辐射场(NeRF)，它可以通过学习场景几何和外观的隐式表示来生成场景的新视图。这些方法可以产生比基于图形的方法更真实的传感器数据，但它们有局限性，例如渲染时间长，或者需要对每个重建的场景进行独立训练。数据驱动传感器仿真的另一种方法是域自适应，旨在最大限度地减少真实和基于图形的仿真传感器数据之间的分布偏移。机器学习技术，如GANs或风格转移，可以用来提高真实感。

基准

作者在下表1中简要概述了最新的驾驶基准。

2019年，CARLA发布的原始基准以近乎完美的成绩解决了。随后的NoCrash基准涉及在特定天气条件下对一个CARLA城镇(Town01)进行训练，并测试对另一个城镇和一组天气的概括。Town05基准涉及对CARLA所有可用城镇的训练，而不是单个城镇，同时保留Town05进行测试。同样，Town02和Town05保留用于测试，以增加测试路线的多样性。Roach扩展到一个有3个测试城镇的环境，尽管都是在训练期间见过的，并且没有Town05和LAV中使用的安全关键场景。最后，Longest6基准使用了6个测试城镇。为CARLA代理商提供两个在线提交服务器被称为排行榜(v1和v2)，可在上获得。排行榜通过对评估路线保密来确保公平的比较。排行榜v2由于路线长度超长(平均超过8公里，而v1为1-2公里)和各种各样的新交通场景而极具挑战性。目前还没有对任何方法进行基准测试。

由于传感器数据和相应的传感器模拟方面尚未公开，目前端到端系统无法访问nuPlan模拟器。然而，有两个现有的基准，智能体通过nuPlan的数据驱动参数初始化直接输入可用的地图和模拟属性。中提出的Val14使用了nuPlan的可公开访问的验证拆分。排行榜是一个在私人测试集上进行测试的提交服务器，用于2023年的nuPlan挑战。不幸的是，这已不再公开供提交。

离线评估(开环)

开环评估涉及根据预先记录的专家驾驶行为评估系统的性能。该方法需要评估数据集，包括(1)传感器读数、(2)目标位置和(3)相应的未来驾驶轨迹，通常从人类驾驶员那里获得。给定来自数据集的传感器输入和目标位置作为输入，通过将系统预测的未来轨迹与人类在驾驶日志中的轨迹进行比较来测量性能。系统的评估基于其轨迹预测与人类真值的匹配程度，以及辅助指标，如与其他智能体的碰撞概率。开环评估的优点在于，它易于实现，并且不需要模拟器，因此可以获得真实的交通和传感器数据。然而，关键的缺点是，它不能测量系统在部署过程中遇到的实际测试分布中的性能。在测试过程中，驾驶系统可能会偏离专家驾驶通道，验证系统从这种漂移中恢复的能力至关重要。此外，预测轨迹和观测轨迹之间的距离不是多模态场景中性能的合适指标。例如，在并入转弯车道的情况下，立即或稍后并入的两个选项都同样有效，但开环评估会惩罚数据中未观察到的选项。类似地，预测的轨迹可能取决于仅在未来可用的观测结果，例如，在仍然是绿色但很快就会变为红色的灯处停止，这种情况无法用单一的真值轨迹进行评估。

这种方法需要一个全面的模拟数据集。为此目的，最流行的数据集包括nuScenes、Argoverse、Waymo和nuPlan。所有这些数据集都包含了来自现实世界驾驶环境的大量带注释的轨迹，这些轨迹具有不同程度的困难。然而，由于上述缺点，开环结果并不能提供闭环中驾驶行为改善的确凿证据。总的来说，如果可行且适用，建议在未来的研究中采用现实的闭环基准。

4、挑战

输入模态

多传感器融合

尽管早期的工作[3，8]成功地实现了简单的自动驾驶任务，如使用单目跟踪车道，但这种单一的输入模态不足以处理复杂的场景。因此，在最近的自动驾驶汽车上引入并配备了各种传感器，如下图4所示。

特别是，来自相机的RGB图像自然地复制了人类如何通过丰富的语义视觉信息感知世界；激光雷达或双目相机提供精确的3D空间知识。此外，来自速度计和IMU的速度和加速度等车辆状态，以及高级导航命令，是引导端到端系统的其他输入线。然而，各种传感器具有不同的视角和数据分布，它们之间的巨大差距给有效融合它们以互补自动驾驶带来了巨大挑战。多传感器融合主要在感知相关领域进行了讨论，例如，模拟检测、跟踪和语义分割，通常分为三组：早期、中期以及后融合。端到端自动驾驶算法探索类似的融合方案。早期融合意味着在将感知信息输入特征提取器之前对其进行组合。连接是融合各种输入的常见方式，如图像和深度、BEV点云和HD地图等，然后使用共享特征提取器对其进行处理。在BEV上绘制与透视图图像大小相同的激光雷达点，并将其组合为输入。为了解决视图差异，一些工作试图在2D图像上投影点云，或者通过提前预测图像中的语义标签为每个激光雷达点附加一个额外的通道。另一方面，后融合方案结合了来自多模态的多个结果。由于其较差的性能，它很少被讨论。

与这些方法相反，中融合通过分别对输入进行编码，然后在特征级别将它们组合来实现网络内的多传感器融合。简单的串联也经常被用来融合来自不同模态的特征。最近，一些工作采用了Transformer来对特征对之间的交互进行建模。Transfuser使用两个独立的卷积编码器处理图像和激光雷达输入，将每个特征解决方案与Transformer编码器互连，从而实现四阶段特征融合。自注意力层用于传感器token、关注感兴趣区域和更新来自其他模态的信息。MMFN进一步将OpenDrive地图和雷达输入结合在Transformer的顶部。采用一级Transformer编码器架构来融合最后一个编码器块之后的各种特征。注意力机制在聚合不同传感器输入的上下文和实现更安全的端到端驾驶性能方面表现出了极大的有效性。

不同的模态通常会增加视野和感知精度，但将它们融合以提取端到端自动驾驶的关键信息需要进一步探索。至关重要的是，在统一的空间中对这些模态进行建模，如BEV，识别与策略相关的上下文，并丢弃不相关的感知信息。此外，充分利用强大的Transformer架构仍然是一个挑战。自注意力层将所有token互连，以自由地对其感兴趣的区域进行建模，但它会产生巨大的计算成本，并且不能保证有用的信息提取。感知领域中更先进的基于Transformer的多传感器融合机制，如，有望应用于端到端驾驶任务。

语言作为输入

人类驾驶汽车时使用视觉感知和内在知识，如交通规则和所需路线，它们共同形成因果行为。在一些与自动驾驶相关的领域，如机器人和室内导航(也称为嵌入式人工智能)，将自然语言作为细粒度指令来控制视觉运动智能体已经取得了显著进展。然而，在以下情况下，与室内机器人应用相比，室外自动驾驶任务具有不同的特点：

(1)室外环境未知，车辆无法来回探索。

(2) 很少有独特的地标，这对基础语言教学提出了巨大挑战。

(3) 驾驶场景要复杂得多，有连续的行动空间和高度动态的智能体。

安全是操纵过程中的首要任务。为了将语言知识融入驾驶行为，Talk2Car数据集为在户外环境中定位参考模拟提供了一个基准。Talk2Nav、TouchDown和Map2Seq数据集引入了使用谷歌街景的视觉语言导航任务。它们将世界建模为离散连接图，并需要以节点选择格式导航到目标。HAD首先采用人对车的建议，并通过基于LSTM的控制器添加了视觉基础任务。Sriram等人将自然语言指令编码为高级行为，包括左转、右转、不左转等，并在CARLA模拟器中验证其语言引导导航方法。通过关注文本操作需求来解决低级别的实时控制问题。最近，CLIP-MC和LM Nav利用CLIP，这得益于大规模的视觉语言预训练，从结构中提取语言知识，从图像中提取视觉特征。它们展示了预训练模型的优势，并为解决多模态模型的复杂导航任务提供了一个有吸引力的原型。

尽管使用CLIP进行地标性特征提取的尝试取得了成功，但GPT-3等大语言模型或ChatGPT等指导性语言模型在自动驾驶领域的应用仍不清楚。现代LLM提供了更多处理复杂语言指令的机会。然而，考虑到它们的推理时间长且不稳定，确定道路应用的交互模态也至关重要。此外，当前的语言引导导航工作验证了它们在模拟或特定机器人实施例中的有效性，并且缺少包括有意义的语言提示的大规模基准。

视觉抽象

端到端自动驾驶系统大致分两个阶段完成操纵任务：将状态空间编码为潜在特征表示，然后用中间特征解码驾驶策略。在城市驾驶的情况下，与电子游戏等常见的策略学习基准相比，输入状态，即周围环境和自状态，更加多样化和高维。因此，首先使用智能体预训练任务对网络的视觉编码器进行预训练是有帮助的。这使得网络能够有效地提取有用的驾驶信息，从而促进后续的策略解码阶段，同时满足所有端到端算法的内存和模型大小限制。此外，这可以提高RL方法的采样效率。

视觉抽象或表示学习的过程通常包含某些归纳或先验信息。为了实现比原始图像更紧凑的表示，一些方法直接利用来自预训练的分割网络的语义分割mask作为后续策略训练的输入表示。SESR通过VAE将分割掩模编码为类解纠缠表示，进一步提高了这一点。在中，预测的绿化指标，如红绿灯状态、速度、到车道中心的偏移、危险指标和到领先车辆的距离，被用作策略学习的表示。

在观察到分割或可供性作为一种表征可能会造成人类定义的瓶颈并导致有用信息的损失后，一些人将预训练任务中的中间潜在特征作为有效表示。PIE-G已经证明ImageNet预训练模型的早期层可以作为有效的表示。有的文章使用通过包括语义分割和/或可供性性预测在内的任务预训练的潜在表示作为RL训练的输入，并实现优异的性能。在中，通过从分割的扩散边界获得的注意力图和深度图来增强VAE中的潜在特征，以突出重要区域。PPGeo在未标注的驾驶视频上以自监督的方式，通过运动预测和深度估计来学习有效的表示。TARP利用来自一系列先前任务的数据来执行不同的任务相关的预测任务，以获取有用的表示。在中，通过近似π-bisimulation度量来学习潜在表示，该度量由动力学模型的奖励和输出的差异组成。除了这些带有监督预测的预训练任务外，中还采用了基于增强视图的无监督对比学习。ACO进一步将转向角判别添加到对比学习结构中。

由于目前的方法主要依赖于人工定义的预训练任务，因此在学习表示中不可避免地存在可能的信息瓶颈，并且可能包括与驾驶决策无关的冗余信息。因此，如何在表征学习过程中更好地提取驾驶策略的关键信息仍然是一个悬而未决的问题。

世界模型和基于模型的RL

除了能够更好地抽象感知表示之外，端到端模型还必须对未来做出合理的预测，以采取安全的策略。在本节中，作者主要讨论当前基于模型的策略学习工作的挑战，其中世界模型为策略模型提供了明确的未来预测。

深度强化学习通常面临高样本复杂性的挑战，由于样本空间的大，这在自动驾驶等任务中尤为明显。基于模型的强化学习(MBRL)通过允许智能体与学习世界模型而不是实际环境相互作用，为提高样本效率提供了一个很有前途的方向。MBRL方法显式地对世界模型/环境模型进行建模，该模型由传递动力学和奖励函数组成，并且智能体可以低成本与之交互。这对自动驾驶特别有帮助，因为像CARLA这样的3D模拟器相对较慢。

对驾驶中高度复杂和动态的环境进行建模是一项具有挑战性的任务。为了简化问题，Chen等人假设世界在轨道上，将过渡动力学分解为非反应世界模型和自车的简单运动学自车模型。他们通过利用这个因子分解的世界模型和奖励函数来丰富静态数据集的标签，以通过动态编程优化更好的标签。在文中，概率序列潜在模型被用作世界模型，以降低RL学习的样本复杂性。为了解决学习世界模型的潜在不准确度，使用多个世界模型的集合来提供不确定性评估。基于不确定性，世界模型和策略智能体之间的想象推出可能会被截断并相应调整。受成功的MBRL模型Dreamer的启发，ISO Dream考虑了环境中的非确定性因素，并将视觉动力学解耦为可控制和不可控制状态。然后，在明确考虑不可控因素(如其他主体的运动)的情况下，在解纠缠状态上训练策略。

值得注意的是，在原始图像空间中学习世界模型并不适合自动驾驶。重要的小细节，如红绿灯，很容易在预测的图像中被遗漏。为了解决这一问题，MILE将世界模型纳入BEV语义分割空间。它通过采用Dreamer风格的世界模型学习作为辅助任务，将世界建模与模拟学习相结合。SEM2还扩展了Dreamer结构，但使用了BEV分割图，并使用RL进行训练。除了直接使用MBRL的学习世界模型外，DeRL还将model-freeactor-critic框架与世界模型相结合。具体而言，学习世界模型提供了对当前动作的自评估，并将其与评论家的状态值相结合，以更好地了解“actor”的表演。

端到端无人驾驶的世界模型学习(MBRL)是一个新兴且有前途的方向，因为它大大降低了RL的样本复杂性，了解世界有助于驾驶。然而，由于驾驶环境高度复杂和动态，仍需要进一步研究，以确定需要建模的内容以及如何有效地建模世界。

具有策略预测的多任务学习

多任务学习(MTL)涉及通过单独的分支/头基于共享表示联合执行多个相关任务。MTL通过对多个任务使用单个模型，显著降低了计算成本。此外，相关领域知识在共享模型中共享，可以更好地利用任务关系来提高模型的泛化能力和鲁棒性。因此，MTL非常适合端到端自动驾驶，其中最终的策略预测需要对当前环境进行全面的了解。

与需要密集预测的常见视觉任务相比，端到端自动驾驶预测稀疏信号。这里的稀疏监督为输入编码器提取有用信息带来了挑战决策。对于图像输入，端到端自动驾驶模型中通常采用辅助任务，如语义分割和深度估计。语义分割确保模型获得对场景的高级理解，并识别不同类别的模拟；深度估计使模型能够理解环境的3D几何形状，并更好地估计关键模拟的距离。通过执行这些任务，图像编码器可以更好地提取有用且有意义的特征表示，用于后续规划。除了透视图像的辅助任务外，3D模拟检测也适用于激光雷达编码器。随着BEV成为自动驾驶的一种自然和流行的表示方式，HD地图映射和BEV分割等任务被包括在模型中，这些模型聚集了BEV空间中的特征。此外，除了将这些视觉任务作为多任务外，还预测视觉可供性，包括红绿灯状态、到路口的距离和到对面车道的距离等。

端到端自动驾驶的多任务学习已证明其在提高性能和提供自动驾驶模型可解释性方面的有效性。然而，辅助任务的最佳组合及其损失的适当加权以实现最佳性能仍有待探索。此外，构建具有多种类型的对齐和高质量注释的大规模数据集是一项重大挑战。

策略蒸馏

由于模仿学习或其主要子类别行为克隆只是模仿专家行为的监督学习，因此相应的方法通常遵循“师生”范式。教师，如CARLA提供的手工制作的专家自动驾驶仪，可以访问周围智能体和地图元素的真值状态，而学生则仅通过原始传感器输入直接受到收集的专家轨迹或控制信号的监督。这给学生模型带来了巨大的挑战，因为他们不仅必须提取感知特征，还必须从头开始学习驾驶策略。

为了解决上述困难，一些研究建议将学习过程分为两个阶段，即训练教师网络，然后将策略蒸馏为最终的学生网络。特别是，Chen等人首先使用特权智能体来学习如何直接访问环境状态。然后，他们让感觉运动智能体(学生网络)密切模仿特权智能体，在输出阶段进行蒸馏。有了更紧凑的BEV表示作为特权智能体的输入，它提供了比原始专家更强的泛化能力和监督能力。该过程如下图5所示。

LAV进一步使特权智能体能够预测附近所有车辆的轨迹，并将这种能力提取到使用视觉特征的学生网络中。

除了直接监督规划结果外，一些工作还通过提取特征级别的知识来训练其预测模型。例如，FM-Net采用现成的网络，包括分割和光流模型，作为辅助教师来指导特征训练。SAM增加了教师和学生网络之间的L2特征损失，其中教师网络从基本事实语义分割图预测控制信号，并停止意图值。WoR学习了一个基于模型的行动值函数，然后用它来监督视觉运动策略。CaT最近在基于IL的特权专家训练中引入了BEV安全提示，并在BEV空间中进行提取以对齐特征。Roach提出用RL训练更强的特权专家，消除了模仿学习的上限。它包含了多个蒸馏目标，即行动分布预测、价值估计和潜在特征。通过利用强大的RL专家，TCP在CARLA排行榜上以单目作为视觉输入，实现了新的最先进技术。

尽管在设计一个更强大的专家和将知识从教师传递给不同层次的学生方面付出了大量的努力，但师生范式仍然受到低效蒸馏的影响。如所有先前的工作所示，与特权智能体相比，视觉运动网络表现出很大的性能差距。例如，特权智能体可以访问红绿灯的真值状态，红绿灯是图像中的小模拟，对提取相应的特征提出了挑战。这可能会导致学生产生因果混淆。因此，如何从机器学习中的一般蒸馏方法中获得更多灵感，以最大限度地缩小差距，值得探索。

可解释性

可解释性在自动驾驶中起着至关重要的作用。它使工程师和研究人员能够更好地测试、调试和改进系统，从社会角度提供性能保证，增加用户的信任，并促进公众的接受。然而，在端到端自动驾驶模型(通常被称为黑匣子)中实现可解释性是一项挑战。给定一个经过训练的自动驾驶模型，一些事后X-AI(可解释的AI)技术可以应用于学习模型以获得显著性图。显著性地图突出显示视觉输入中的特定区域，模型主要依赖这些区域进行规划。然而，这种方法提供的信息有限，其有效性和有效性很难评估。相反，作者关注的是自动驾驶框架，这些框架在模型设计中直接增强了可解释性。作者将在下面的图6中介绍每一类可解释性。

注意力可视化：注意力机制通常提供一定程度的可解释性。在中，学习的注意力权重被应用于从中间特征图中聚合重要特征。学习注意力权重以自适应地组合来自不同模拟区域或固定网格的ROI pooling特征。NEAT迭代聚合特征以预测注意力权重并细化聚合特征。最近，Transformer注意力机制已被广泛用于许多自动驾驶模型中。有文章中采用了Transformer注意力块，以更好地聚合来自传感器输入的信息，注意力图显示了输入中的重要区域，用于驾驶决策。在PlanT中，注意力层处理来自不同场景的特征，为相应的动作提供可解释的见解。与事后显著性方法类似，尽管习得的注意力图可以提供一些关于模型焦点的直接线索，但其忠实性和实用性仍然有限。

可解释任务：在深度驾驶模型中，输入最初被编码为中间表示，用于后续预测。因此，许多基于IL的工作通过将潜在特征表示解码为其他有意义的信息来引入可解释性，例如语义分割、深度估计、模拟检测、可供性预测、运动预测和凝视图估计。尽管这些方法提供了可解释的信息，但大多数方法仅将这些预测视为辅助任务，对最终驾驶决策没有明确影响。有些确实将这些输出用于最终驾驶动作，但它们仅用于执行额外的安全检查。

成本学习：如前所述，基于成本学习的方法与传统的模块化自动驾驶系统有一些相似之处，因此表现出一定程度的可解释性。NMP和DSDNet结合检测和运动预测结果构建成本体积。P3将预测的语义占用图与舒适度和交通规则约束相结合来构建代价函数。各种表示，如概率占用和时间运动场、紧急占用和freespace，用于对采样轨迹进行评分。明确包括安全、舒适、交通规则和基于感知和预测输出的路线等因素，以构建成本量。

语言可解释性：由于可解释性的一个方面是帮助人类理解系统，因此自然语言是实现这一目的的合适选择。Kim等人生成BDD-X数据集，将驾驶视频与描述和解释配对。他们还提出了一个带有车辆控制器和解释生成器的自动驾驶模型，并强制两个模块的空间注意力权重对齐。BEEF提出了一个解释模块，该模块融合了预测的轨迹和中间感知特征，以预测决策的调整。有些文中，引入了一个名为BBD-OIA的数据集，该数据集包括驾驶决策的注释和高密度交通场景的解释。最近，ADAPT提出了一种基于Transformer的网络，以基于BBD-X数据集的驾驶视频来联合估计动作、叙述和推理。鉴于多模态和基础模型的最新进展，作者认为，将语言与自动驾驶模型进一步结合有望实现卓越的可解释性和性能，如前所述。

不确定性建模：不确定性是解释模型输出可靠性的一种定量方法。由于规划结果并不总是准确或最优的，因此设计师和用户必须确定不确定的情况以进行改进或必要的干预。对于深度学习，有两种类型的不确定性：先验不确定性和认识不确定性。算术不确定性是任务固有的，而认识不确定性是由于数据或建模能力有限。在中，对端到端自动驾驶系统的不确定性进行了定量评估，利用模型中的某些随机正则化来执行多次前向传递作为样本来测量不确定性。然而，多个前向传递的要求在实时场景中是不可行的。RIP提出用专家似然模型的集合捕获认知不确定性，并聚合结果以执行安全规划。关于建模任意不确定性的方法，有的文中明确预测了驾驶行为/规划和不确定性(通常用方差表示)。对于预测的不确定性，从多个输出中选择不确定性最低的输出，而生成建议动作的加权组合。VTGNet没有直接使用不确定性进行规划，但证明了建模数据的不确定性可以提高总体性能。目前，预测的不确定性主要与硬编码规则结合使用。探索更好的方法来建模和利用自动驾驶的不确定性是必要的。

因果混淆

驾驶是一项表现出时间平稳性的任务，这使得过去的运动成为下一步行动的可靠预测因素。然而，使用多个帧训练的方法可能过于依赖于这种快捷方式，并在部署过程中遭受灾难性的失败。在一些工作中，这个问题被称为模仿问题，是因果混淆的表现，即访问更多信息会导致性能下降。LeCun等人是关于这种影响的最早报告之一。他们使用单一的输入帧来指导预测，以避免这种推论。尽管过于简单，但这仍然是当前最先进的模仿学习方法的首选解决方案[22，28，29]。不幸的是，使用单个帧的缺点是无法提取周围障碍物的速度。造成混淆的另一个原因是速度测量。下图7展示了一辆汽车在红灯前等待的例子。

汽车的速度与刹车动作高度相关，因为汽车正在等待许多帧，其中速度为零，而刹车动作就是刹车。只有在红绿灯从红色变为绿色的单个帧处，这种相关性才会分解。当使用多个框架时，有多种方法可以解决因果混淆问题。Chauffer-Net通过在BEV中使用中间视觉抽象来解决这个问题。一个抽象是自车的过去，而其他抽象则不包含这些信息。在训练过程中，自车的过去动作以50%的概率被放弃。然而，这种方法需要显式的抽象才能有效地工作。在中，作者试图通过训练预测自车过去动作的对抗性模型，从学习的中间瓶颈表示中去除虚假的时间相关性。这导致了最小-最大优化问题，其中模仿损失最小化，对抗性损失最大化。直观地说，这训练网络从其中间层中消除其自身的过去。这种方法在MuJoCo中效果很好，但不能扩展到复杂的基于视觉的驾驶。第一个研究驾驶复杂性的是。他们建议在训练损失中增加关键帧的权重。关键帧是决策发生变化的帧(因此无法通过推断过去来预测)。为了找到关键帧，他们训练了一个策略，该策略仅以自车的过去作为输入来预测动作。与关键帧相比，PrimeNet通过使用集合提高了性能，其中单帧模型的预测作为多帧模型的额外输入。zhuang等人也做了同样的事情，但用动作残差而不是动作来监督多帧网络。OREO将图像映射到表示语义模拟的离散代码，并将随机丢弃mask应用于共享相同离散代码的单元。这有助于在Confounded Atari中，在屏幕上呈现上一个动作。在自动驾驶中，只使用激光雷达历史(单帧图像)并将点云重新排列到同一坐标系中，可以避免因果混淆的问题。这删除了关于自运动的信息，同时保留了关于其他车辆过去状态的信息。这项技术已被用于多部工作，尽管其动机并非如此。

近二十年来，模仿学习中的因果混淆一直是一个持续的挑战。近年来，重要的研究人员已经开始研究这个问题。然而，这些研究使用了经过修改的环境来简化因果混淆问题的研究。在最先进的环境中显示性能改进仍然是一个悬而未决的问题。

稳健性

长尾分布

长尾分布问题的一个重要方面是数据集不平衡，其中少数类占大多数，而许多其他类的样本数量有限，如下图8(a)段所示。

这给模型推广到各种环境带来了巨大的挑战。各种方法通过数据处理来解决这个问题，包括过采样、欠采样和数据扩充。此外，基于加权的方法也通常用于缓解数据集不平衡问题。

在端到端自动驾驶的背景下，长尾分布问题尤为严重。数据集不平衡在驾驶数据集中尤其成问题，因为大多数典型的驾驶都是重复的和无趣的，例如，在许多帧中沿着一条车道行驶。相反，有趣的安全关键场景很少发生，但性质多样。为了解决这个问题，一些工作依赖于手工制作的场景，以在模拟中生成更多样、更有趣的数据。LBC利用特权智能体来创建以不同导航命令为条件的假想超权限。LAV认为，尽管用于数据收集的自车很少有事故发生的情况，其他智能体人可能经历过一些安全关键或有趣的情况。因此，它包括用于训练的其他智能体的轨迹，以促进数据多样性。在中，提出了一种模拟框架，以应用重要性采样策略来加速罕见事件概率的评估。

另一条研究路线通过虚拟攻击以数据驱动的方式生成安全关键场景。在中，贝叶斯优化被用于生成对抗性场景。学习碰撞将驾驶场景表示为构建块上的联合分布，并应用策略梯度RL方法生成风险场景。AdvSim修改智能体的轨迹，同时仍然坚持物理合理性，以导致故障，并相应地更新激光雷达。最近的工作KING通过不同的运动学模型提出了一种使用梯度的安全临界扰动的优化算法。一般来说，有效生成涵盖长尾分布的现实安全关键场景仍然是一个重大挑战。虽然许多工作侧重于模拟器中的对抗性场景，但更好地利用真实世界的数据进行关键场景挖掘和对模拟的潜在适应也是至关重要的。此外，系统、严格、全面和现实的测试框架对于评估这些长尾分布式安全关键场景下的端到端自动驾驶方法至关重要。

协变量移位

如前所述，行为克隆的一个重要挑战是协变量移位。专家策略和经过训练的智能体策略的状态分布不同，当经过训练的智能体部署在看不见的测试环境中时，或者当来自其他智能体的反应与训练时间不同时，会导致复合误差。这可能导致经过训练的智能体处于专家训练分布之外的状态，从而导致严重故障。如上面图8(b)所示。DAgger(数据集聚合)是克服这一问题的常用方法。DAgger是一个迭代训练过程，其中在每次迭代中推出当前训练的策略来收集新的数据，并使用专家来标注访问的状态。这通过添加如何从不完美策略可能访问的次优状态中恢复的示例丰富了训练数据集。然后在增强的数据集上训练策略，并重复该过程。然而，DAgger的一个缺点是需要一个可用的专家来在线查询。

对于端到端自动驾驶，中采用了DAgger，并配备了基于MPC的专家。为了降低持续查询专家的成本并提高安全性，SafeDAgger通过学习估计当前策略和专家策略之间偏差的安全策略来扩展原始DAgger算法。只有当偏差很大时才会询问专家，而在那些危险的情况下，专家会接管。MetaDAgger将元学习与DAgger相结合，以聚合来自多个环境的数据。LBC采用DAgger并对数据进行重新采样，以便更频繁地对具有较高损耗的样本进行采样。在DARB中，对DAgger进行了一些修改，以适应驾驶任务。为了更好地利用故障或安全相关样本，它提出了几种机制，包括基于任务的、基于策略的以及基于策略和专家的机制，来对这些关键状态进行采样。它还使用固定大小的重放缓冲区进行迭代训练，以增加多样性并减少数据集偏差。

域自适应

领域自适应(DA)是一种迁移学习，其中目标任务与源任务相同，但域不同。在这里，作者讨论的场景是，标签可用于源域，而目标域没有标签或标签数量有限。如前面图8(c)所示，模拟驾驶任务的领域自适应包括几种情况：

模拟到真实：用于训练的模拟器和用于部署的真实世界之间的巨大差距。

地理到地理：不同的地理位置，不同的环境外观。

天气对天气：由雨、雾和雪等天气条件引起的传感器输入变化。

昼夜：传感器输入的照明变化。

传感器与传感器之间：传感器特性的可能差异，例如分辨率和相对位置

传感器与传感器之间：传感器特性的可能差异，例如分辨率和相对位置。请注意，上述情况经常重叠。VISRI使用翻译网络将模拟图像映射到真实图像，分割图作为中间表示。基于翻译的模拟图像来训练RL智能体。在中，使用图像翻译器和鉴别器实现了域不变特征学习，以将来自两个域的图像映射到共同的潜在空间。类似地，LUSR采用循环一致VAE将图像投影到由领域特定部分和领域一般部分组成的潜在表示中，在此基础上学习策略。UAIL通过将不同天气条件下的图像分解为可区分的风格空间和具有GAN的共享内容空间，实现天气对天气的适应。在SESR中，从语义分割掩码中提取类解纠缠编码，以减少模拟器中的图像与现实世界之间的域间隙。领域随机化也是模拟器中RL策略学习的模拟到真实自适应的一种简单有效的技术，它进一步适用于端到端的自动驾驶系统。它是通过对模拟器的渲染和物理设置进行随机化来实现的，以覆盖训练过程中真实世界的可变性，并获得具有良好泛化能力的训练策略。目前，通过源target图像映射或域不变特征学习进行模拟到真实的自适应是端到端自动驾驶的重点。其他领域适应情况，如地理到地理或天气到天气的适应，是通过训练数据集的多样性和规模来处理的。由于激光雷达已成为一种流行的驾驶输入模态，鉴于目前的工作主要集中在基于图像的自适应，还必须设计适合激光雷达特征的特定自适应技术。此外，由于当前的方法只关注图像中的视觉差距，因此应注意交通智能体的行为以及模拟器与现实世界之间的交通规则差距。通过NeRF等技术将真实世界的数据纳入模拟是另一个有前景的方向。

5、未来趋势

考虑到所讨论的挑战和机遇，作者列出了未来研究的一些关键方向，这些方向可能会在该领域产生更广泛的影响。

零样本和少样本学习

自动驾驶模型最终不可避免地会遇到超出训练数据分布范围的真实场景。这就提出了一个问题，即作者是否能够成功地将模型调整到一个看不见的目标领域，在这个领域中，有限或没有标注的数据可用。实现这一目标的关键步骤是将这项任务形式化为端到端驾驶领域，并将零样本/少样本学习文献中的相关技术纳入其中。

模块化端对端规划

模块化端到端规划框架优化了多个模块，同时对下游规划任务进行了优先排序，这具有可解释性的优势，如第前所示。这在最近的文献中得到了提倡，某些行业解决方案(特斯拉、Wayve等)也涉及类似的想法。在设计这些可区分的感知模块时，会出现一些关于损失函数选择的问题，例如3D边界框用于目标检测的必要性，占用表示是否足以检测一般障碍物，或者选择BEV分割而不是车道拓扑用于静态场景感知的优势。

数据引擎

大规模、高质量的数据对自动驾驶的重要性再怎么强调也不为过。建立一个带有自动标注pipeline的数据引擎可以极大地促进数据和模型的迭代开发。自动驾驶的数据引擎，尤其是模块化的端到端规划系统，需要在大型感知模块的帮助下，以自动的方式简化注释高质量感知标签的过程。它还应支持挖掘困难/角落案例、场景生成和编辑，以简化前面中讨论的数据驱动评估，并促进数据的多样性和模型的泛化能力。数据引擎将使自动驾驶模型能够做出一致的改进。

基础模型

语言和视觉方面的大型基础模型的最新进展对社会的各个方面产生了重大影响。大规模数据和模型能力的利用释放了人工智能在高级推理任务中的巨大潜力。微调或即时学习、自监督重建形式的优化或对比对以及数据pipeline等的范式都适用于端到端的自动驾驶领域。然而，作者认为，将LLM直接用于自动驾驶似乎与这两个目标的不同目标不一致。自主主体的输出通常需要稳定和准确的测量，而语言模型中的生成序列输出旨在表现得像人，无论其准确性如何。开发大型自动驾驶模型的一个可行解决方案是训练一个视频预测器，该预测器可以预测2D或3D环境的长期预测。为了在规划等下游任务中表现出色，要为大型模型优化的目标需要足够复杂，超出框架级别的感知。

V2X

遮挡和超出感知范围的障碍物是现代计算机视觉技术的两个基本挑战，当人类驾驶员需要对穿越目标做出快速反应时，这甚至会给他们带来巨大困难。V2V、V2I和V2X系统提供了很有前途的解决方案来解决这一关键问题，其中来自不同观点的信息补充了自盲点。见证了多智能体场景下信息传输机制的进步，这些系统可以提供一种实现高级决策智能的解决方案。

6、结论

在这项调研中，首先概述了端到端自动驾驶的基本方法，并总结了仿真和基准测试的各个方面。然后深入分析了迄今为止广泛的文献，并强调了一系列重大挑战和有希望的解决方案。最后讨论了未来如何采用快速发展的基础模型和数据引擎。端到端自动驾驶同时面临着巨大的机遇和挑战，最终目标是打造多面手。在这个新兴技术的时代，希望这项调研能作为一个起点，为这一领域提供新的线索。

4689 次浏览

37 次