最全面的端到端智驾系统进化过程解析

作者昵称：HMI 汽车交互设计

957 次浏览

2025-12-22

编辑推荐:

文章主要介绍自动驾驶系统的三大主题：感知演进、决策演进和未来趋势，希望对你的学习有帮助。
本文来自于智驾派，由火龙果软件Alice编辑，推荐。

引言

自动驾驶系统通常划分为感知、决策和控制等核心模块。其中，感知模块负责通过摄像头、激光雷达、雷达等传感器获取环境信息并解析出车辆周围的语义与几何状态；决策模块根据感知结果制定驾驶策略，包括路径规划和行为选择；控制模块则将决策转换为转向、加速、制动等具体控制指令。近年来，随着深度学习和人工智能技术的发展，感知与决策模块经历了从传统规则算法到端到端数据驱动模型的变革，本文详细阐述以下三大主题：

感知演进：从早期基于二维图像卷积网络 (2D CNN) 的目标检测，到引入鸟瞰图 (BEV) 表示和Transformer的多视角感知，再到最新的Occupancy Network (占用网络) 方法。我们将比较纯视觉感知与多传感器融合方案，并给出神经网络结构图、模型参数表、 BEV特征构建和时序建模细节。

决策演进：从基于规则的 if-else逻辑，到蒙特卡洛树搜索 (MCTS) 等规划算法，再到端到端 Transformer决策网络。讨论不同决策范式的学习方式（模仿学习 vs 强化学习）、代价函数设计、行为评估指标、训练效率优化，以及整车系统调优的难点，并辅以示意图说明。

未来趋势：探索从模块化端到端走向全局端到端的演进，并展望视觉 -语言模型 (VLM) 以及视觉 -语言-动作模型 (VLA) 在自动驾驶中的应用前景。分析这类新型大模型的网络结构、训练策略、推理流程，以及它们与经典 “系统1/系统2”架构协作的方式，并讨论模型参数规模和推理延迟对车载芯片设计的影响。

第一章感知：

从 2D CNN到BEV T ransfor mer再到Occupancy Network

自动驾驶感知模块的目标是对车辆周围环境进行高精度的三维感知，识别道路、车道线、车辆、行人、障碍物等对象，并估计它们的三维位置和运动状态，感知算法的发展大致经历了以下阶段：早期的 2D视觉卷积网络、基于鸟瞰图 (BEV)的多传感器Transformer感知，以及最新的占用网络 (Occupancy Network) 。本章将按时间演进顺序介绍各方案的原理和特点。

1.1 基于二维卷积网络的视觉感知 (2D + CNN)

在深度学习兴起初期，卷积神经网络 (CNN) 在图像识别方面展现出卓越性能，率先将计算机视觉引入自动驾驶感知，典型做法是利用 2D卷积网络从摄像头图像中检测物体，输出目标的二维边界框和类别。例如经典的 Faster R-CNN、YOLO系列网络，都属于此范式。其核心结构包括：卷积骨干网络提取图像特征，区域提议网络（如 RPN）或全卷积检测头生成目标框和分类结果。下表给出了YOLOv3模型的参数规模与结构摘要：

上述 2D CNN视觉感知在当时推动了自动驾驶感知的第一次革新，使车辆能够实时检测前方道路上的车辆和行人等目标。多传感器数据融合也在这一阶段开始出现，将摄像头、雷达、激光雷达的数据结合，提高环境理解的完整性。然而，基于 2D检测的方案仍存在局限：(1) 缺乏直接的三维定位能力：仅输出图像坐标，需要额外推断目标距离； (2) 对数据依赖强：需大量带标注的驾驶图像训练，长尾场景下泛化能力不足； (3) 对于复杂环境的鲁棒性有限：遮挡、光照等变化会影响检测准确率。针对这些问题，业界开始探索新的感知表示和模型架构。

1.2 鸟瞰图 (BEV) 表示与Transformer时空感知

鸟瞰图 (BEV, Bird's Eye View) 表示是一种从车辆上方俯视的二维栅格视角，将三维环境投影到地面平面上。

BEV的优点在于：它提供了一个统一且直观的空间表示，清晰展现道路拓扑、障碍物位置及相对关系，非常利于规划决策。早期的 BEV生成依赖精确的传感器标定和投影转换：例如激光雷达点云天然在车体坐标系下，可直接投影为 BEV平面高度图；摄像头图像则通过逆透视映射或借助深度估计，将像素坐标转换到地面坐标，再融合多摄像头视图形成周视鸟瞰图。

由于 BEV视角消除了透视变形，使得车道线、自由空间、车辆边界等要素在空间上保持一致，更利于路径规划和碰撞判断。

Transformer神经网络在 NLP领域取得成功后，也被引入自动驾驶感知，用于处理时序和多视角数据。Transformer通过自注意力机制有效捕获序列数据中的长程依赖关系。在感知中， Transformer可以用来融合多传感器信息以及多个时间帧信息，从而实现全局上下文的建模。大约在2020年前后， “BEV + Transformer”的感知方案兴起：将来自多摄像头或多传感器的特征统一映射到 BEV空间，再通过Transformer在空间维度和时间维度进行注意力特征聚合，显著提升了检测精度和稳定性。这一范式的代表工作包括： LSS (Lift-Splat-Shoot) 、 BEVDet 、 DETR3D 、以及 BEVFormer 等模型。

BEVFormer感知模型的总体架构

该模型以 Transformer为核心，实现多摄像头图像的鸟瞰视角感知。图中展示了BEVFormer v2结构，包含图像骨干网络、透视3D检测头、空间Transformer编码器、时间Transformer编码器和BEV检测头等模块。

BEVFormer的工作过程如下：

a、多视图特征提取：使用ResNet等卷积骨干提取每个摄像头图像的特征张量，并结合相机内外参，将特征映射到统一坐标系。

b、BEV Query初始化：在BEV平面上定义网格化的BEV Query （可学习参数），每个 BEV Query对应真实世界中的一个网格区域，用于查询该区域内相关的多视图特征。

c、空间跨注意力：每个 BEV Query通过deformable attention 仅与对应空间位置投影到各摄像头视图上的区域特征交互，将不同视角的图像信息 “提升”到BEV表示中。这一步实现了图像特征到 BEV特征的转换。

d、时间自注意力：引入历史时刻的 BEV特征，通过时间自注意力模块将当前帧 BEV Queries与前一帧的BEV表示相关联，实现时序信息融合。这使得感知对动态物体的运动历史更加敏感，增强对轨迹的捕捉。

e、Transformer解码与检测：经过多层时空Transformer编码后，得到丰富的BEV特征图。Decoder模块以BEV特征和查询为输入，输出三维检测结果（如目标的3D边界框、类别等）。在BEVFormer v2中，还增加了一个透视视角的3D检测头提供辅助监督信号，用以提升训练效果。

模型规模与性能： BEVFormer等BEV感知模型由于包含卷积骨干和多层Transformer，自身参数量通常达到五千万级别，对算力和内存有较高要求。例如 BEVFormer采用6层Transformer编码器，以及ResNet-50或101骨干网络，总参数数以千万计。这类模型在NuScenes等数据集上取得了显著优于纯 2D检测的3D目标检测精度，但代价是需要复杂的标定和较高的计算资源。此外，由于 BEV本质上是对高度维的信息进行压缩投影，缺乏垂直方向分辨率，对悬空障碍（如立交桥下方、车底空隙）等的表征仍存在局限。

通过 Transformer实现的BEV空间带来了几个重要提升，首先所有传感器的数据得以进行端到端的特征级融合，减少层层处理以及先验规则带来的信息丢失；

其次， Transformer提供了全局的感受野，而 CNN 则是通过卷积核提取局部的相关性也就是局部感受野，因此Transformer对特征学习能力更强。

此外，在 BEV空间下不会出现像此前大卡车无法被单个摄像头捕捉全貌而无法识别的问题。进一步看，这是因为 Transformer可以融合处理时间数据并加入记忆模块，使得 BEV空间从3D变成时序融合下的4D空间，可以在物体被遮挡时继续根据依存关系预判它的位置，也可以对其他目标的动态进行预测。

1.3 占用网络 (OOCC) 的引入

Occupancy Network（占用网络）是最近发展起来的一种3D体素占据预测感知框架，旨在直接重建车辆周围的体积环境表示。与 BEV仅有二维平面不同，占用网络在BEV平面基础上增加高度维度，生成体素 (voxel) 网格表示的三维空间模型，预测每个体素格被占据的概率。这种方法本质上让神经网络学习一个连续的三维场，能够表征任意形状的物体和地形，而不局限于固定形状的检测框。

Occupancy占用网络的加入让BEV从2D变成了真正意义上的3D（如下图所示），并且在加入时间流信息（基于光流法）之后，完成了由 3D向4D的过度。

特斯拉在 2021-2022年率先将占用网络应用于自动驾驶感知，并在CVPR 2022上分享了该架构细节。其思想借鉴了机器人领域的 Occupancy Grid Mapping ：将空间划分为微小体素，网络预测每个体素是 “空”还是“被占据”。与传统目标检测相比，占用网络不再输出离散边界框，而是输出整个空间的稠密占据概率分布。这意味着即使遇到训练集中未标注的新奇物体（例如侧翻的卡车、散落的杂物），网络也可以通过判断 “此空间有无物体”来探测到它们。这一性质大幅提升了感知系统对异常物体的检出能力和安全性。

Occupancy Network也是通过Transformer来实现的，最终输出Occupancy Volume（物体所占据的体积）和Occupancy flow（时间流）。也就是附近的物体占据了多大的体积，而时间流则是通过光流法来判断的。

光流法假设构成物体的像素亮度恒定且时间连续，通过对比连续两帧图像中的像素位置变化，最终带来了 4D投影信息。

占用网络的神经网络架构如下图所示：

模型从 8路摄像头图像提取特征，经过Transformer注意力融合，输出体素级别的空间占据概率（占用体素）以及体素运动信息（Occupancy Flow）。

如图所示，Tesla的Occupancy Network主要包含以下模块：

a、多视角特征提取 Backbone： 8个车载摄像头的图像首先输入共享的卷积骨干网络（Tesla使用RegNet卷积网络）和特征金字塔（BiFPN）来提取多尺度特征。这一步得到每个摄像头视角的一系列特征张量。

b、 Transformer注意力融合：将每个摄像头的特征加入对应的空间位置信息编码，通过Transformer的跨注意力模块将图像特征融合到统一的三维空间表示中。 Transformer Query被设计为固定含义（例如“该体素内有车/有行人”等）的查询向量，Key和Value来自图像特征。Transformer注意力输出一个中间的占用特征体 (Occupancy Feature Volume)。

c、时间序列融合：占用特征进一步与前几个历史时刻的特征体进行融合，采用时间递归（ Temporal Self-Attention）或类似4D卷积的方法，将$t-1, t-2, ...$帧的占用信息整合，形成当前时刻的4D占用特征。这使得输出不仅考虑当前帧，还隐式包含了运动轨迹的信息。

d、解码与输出：最后，通过上采样和卷积解码，输出两个主要结果：占用体积 (Occupancy Volume)，即每个体素被占据的概率；以及占用流 (Occupancy Flow) ，即每个体素内物体的运动矢量或光流。占用流的引入可以理解为预测每个占用体素在下一瞬间的位置变化，用以表征动态物体的运动方向（例如图中用不同颜色表示体素运动的方向）。

占用网络的优势在于：它提供了更精细的 3D环境重建。与 BEV仅输出每个位置是否有车辆/行人不同， Occupancy Network能刻画物体的任意形状，哪怕是不规则形状（如梯子、自行车等）也能通过体素网格近似出来。同时，因为预测的是 “一种通用表示”（占用概率），模型在训练时可以利用大量无标注视频数据进行自监督学习，例如通过时空对比、未来预测等方式练就对占据状况的判断。特斯拉工程团队指出，占用网络充分利用了未标注数据来补足有标签数据的不足，对于提升长尾安全性非常关键。此外，实测表明这些网络在 Tesla FSD芯片上可以以超过 100 FPS的速度运行，满足实时要求。这得益于架构的高度优化和 Tesla硬件对稀疏卷积、Transformer推理的加速支持。

1.4 纯视觉 vs 多传感器融合方案对比

在感知模块的发展中，一个重要的分支问题是：应当采用纯视觉感知路线，还是融合激光雷达、毫米波雷达等多种传感器？不同公司和团队给出了不同答案，各有权衡。

纯视觉方案：以 Tesla为代表，主张依靠摄像头为主的视觉感知，通过强大的AI算法来弥补传感器的不足。优点是硬件成本低（摄像头价格远低于激光雷达），且视觉可以提供丰富的语义信息（交通灯颜色、道路标识等）。随着 Occupancy Network等技术的发展，纯视觉在良好条件下也能获取高质量的3D环境表示。例如特斯拉在其HW3.0硬件上仅使用8个摄像头和12个超声波，在2022年开始甚至取消了毫米波雷达，全凭视觉网络实现L2+自动驾驶功能。据报道，特斯拉还在新车型上重新引入高分辨率的 4D毫米波雷达，以增强恶劣天气下的感知。但总体而言， Tesla路线证明了纯视觉+强大AI在众多场景下的可行性。

纯视觉方案的挑战在于： (1) 距离和深度准确性依赖学习，很难达到激光雷达的精度，这在高速行驶时是劣势； (2) 对环境条件敏感：夜晚、强光、雨雪等情况下摄像头效果变差，可靠性受影响； (3) 冗余度低：单一类型传感器故障时缺乏备份。因此，纯视觉方案需要通过算法（如多帧时序融合、视频增强等）和传感器配置（如增加摄像头数量、覆盖各方向）来缓解这些问题。

多传感器融合方案：以 Waymo、Cruise等公司为代表，采用激光雷达+摄像头+雷达的组合。激光雷达提供高精度的距离与三维点云，毫米波雷达提供全天候的运动物体检测（如对前车相对速度敏感），摄像头提供丰富的语义。多源数据通过跨传感器融合算法（如 Kalman滤波、点云与图像配准、Transformer跨模态注意力）结合，可以形成高度可靠的环境感知。例如Waymo早期系统使用了多个64线激光雷达、短程激光雷达和摄像头融合，使其在复杂城市环境下具有出色的探测能力。然而多传感器方案的缺点也很明显：硬件成本高、系统复杂度高，车辆需要安装昂贵的激光雷达和大量传感器，并解决校准、同步等工程问题。此外，多传感器产生的海量数据对车载计算平台也是严峻考验，需要更高算力来实时处理。

在近年的发展趋势中，一些新型传感器尝试折中纯视觉与多传感器融合的优缺点。例如 4D成像雷达是一种高分辨率雷达，可以在一定程度上提供类似低线束激光雷达的空间信息，但成本仅为后者的十分之一左右。特斯拉在最新硬件 4.0版本的Model S/X中就配备了4D成像雷达，以增强感知的远距探测性能。4D雷达结合摄像头，有望以较低成本获得接近激光雷达的效果，被认为是业界折中的方向之一。

总结：纯视觉和多传感器融合各有适用场景。对追求大规模量产、降低成本的乘用车 L2/L3系统，视觉方案更具吸引力；而对于追求极限安全冗余的 L4级Robotaxi，融合方案目前仍是主流（如Waymo、Cruise的无人车都配备激光雷达）。值得注意的是，随着视觉感知算法（如BEV+Transformer、Occupancy Network）的跃进，纯视觉方案的性能在不断接近多传感器方案，在特定限制场景下（比如高速公路NOA）已经可以媲美后者。未来，我们可能会看到两种路线的进一步融合：例如“视觉为主+低成本雷达作为补充”的混合感知方案，利用AI算法最大化每种传感器的信息价值，在成本和性能间取得平衡。

第二章决策：

从规则逻辑和 MCTS到端到端Transformer

在感知模块提供环境模型后，决策模块负责依据车辆状态和道路环境，规划出安全、平顺、高效的行驶策略。决策规划可进一步细分为行为决策（ Decision）和运动规划（ Planning）两个层次：前者决定车辆的高层动作（如变道、超车、停车），后者生成具体的轨迹和速度曲线。然而二者界限往往模糊，尤其在数据驱动的方法中，常统一视为一个整体。本章沿时间演进介绍自动驾驶决策技术的发展，包括：早期的基于规则的有限状态机，中期引入搜索与优化的蒙特卡洛树搜索 (MCTS) 等方法，以及近期兴起的端到端深度学习决策（尤其是 Transformer结构的网络）。我们也将讨论决策算法的学习范式（模仿 vs 强化）等关键问题。

2.1 基于规则的决策逻辑 (有限状态机 & if-else)

在自动驾驶研发的早期阶段，决策模块主要采用手工设计的规则和有限状态机来实现。工程师基于交通法规和驾驶经验，预先定义各种场景下车辆的行为模式。例如，高速公路跟车场景可用简单规则描述： “如果前车距离小于安全距离则减速，否则保持巡航速度”；又比如变道场景，可设计状态机：状态A=正常行驶，状态B=准备变道，状态C=执行变道，每个状态转移由条件触发 (如目标车道是否空闲) 来控制。这种基于 if-else的逻辑直观易懂，调试也相对简单，曾被广泛应用于早期 L2驾驶辅助系统和2000年代的无人车原型。

规则基决策的优点在于：可解释性强，行为逻辑透明，可追溯每个决策原因；计算开销低，通常只涉及简单判断和几何计算，可在低端 ECU上运行；满足特定场景容易优化，例如针对高速场景和固定车道线可手工调校出很舒适的控制策略。然而，它的局限性也十分明显： (1) 规则难以穷尽：驾驶场景千变万化，手工规则无法覆盖所有情形，遇到未预料状况容易失败； (2) 缺少全局最优保证：各子模块各自为政，可能出现次优或冲突（例如加速和转向规则冲突导致抖动）； (3) 不易扩展：当引入新的行为（比如避让行人）时，需要重构大量逻辑，开发周期长。在实际道路测试中，基于规则的系统在复杂城市工况下暴露出脆弱性，难以应对具有不确定性的互动场景，比如对向车抢道、行人突然横穿等。

2.2 基于蒙特卡洛树搜索 (MCTS) 的决策规划

为克服纯规则方法的不足，引入 AI搜索和优化方法成为一个方向。蒙特卡洛树搜索 (Monte Carlo Tree Search, MCTS) 是其中受到关注的方法之一。 MCTS最初流行于博弈决策，如围棋、国际象棋中用于在巨大决策空间内高效搜索最优走法。它通过随机模拟（蒙特卡洛采样）评估动作序列的回报，不断扩展决策树并优化策略。将MCTS引入自动驾驶，是希望借助其探索 -利用平衡机制，规划出既安全又高效的车辆行为序列。

在自动驾驶情境下， MCTS通常用于行为层的规划。例如，在复杂路口场景中，车辆面临多种决策（等待、加速通过、绕行等）。 MCTS算法可将每个决策视为树中的一个分支，模拟之后几秒内场景演变（包括其他交通参与者的假定反应），以随机采样方式得到许多可能的情景轨迹。每条轨迹根据预先定义的综合代价函数打分（考虑安全、通过率、舒适度等因素）。算法通过多轮迭代，不断在决策树中扩展高潜力的节点并回溯更新评估，从而找到期望收益最高的决策序列。研究表明，这种方法能够令自动车辆在复杂场景下采取合理行动，例如在交通拥堵的无保护左转、加塞 (U形插队)场景中，MCTS规划可以成功率较高地通过。一项2023年的研究展示了一个MCTS决策系统能处理路口通行、无保护左转、加塞、匝道汇入等多种复杂情境，并通过调整模拟迭代次数实现实时性和决策质量的权衡。

2.3 端到端深度学习决策网络 (Transformer-based)

随着深度学习在感知领域的成功，人们也开始尝试将决策过程交给神经网络。端到端决策的理念是：让模型直接从感知输入预测驾驶行为（如转向角、加减速或未来轨迹），中间不再由人工定义子目标或规则。早期的端到端尝试可以追溯到 1980年代的ALVINN，以及2016年英伟达的DAVE-2系统，其用一个简单CNN从前视相机图像回归转向角。这些模型在受限环境下（无人车跑道或简单道路）证明了可行性，但在复杂开放道路上表现有限。近年来，借助更强大的网络和大规模数据，端到端决策再次受到瞩目。特别是 Transformer架构被引入用于端到端驾驶决策网络，取得了显著进展。

Transformer之所以适合决策任务，在于驾驶决策本质是一个时序问题：车辆需根据历史轨迹和未来规划做出连贯的动作序列。 Transformer通过自注意力可以有效地在时间维建模因果关系，同时还能融合多模态输入（如视觉特征、地图等）。 Waymo等公司已在感知、预测等环节全面应用Transformer，并开始探索将 Transformer用于决策规划。 Waymo技术负责人透露，他们在行为决策中充分利用 Transformer处理行为序列和语义理解，并尝试将其与大型语言模型的知识相结合，提升通用性。这说明业内领先团队已经认识到 Transformer等大模型在决策层的潜力。

一种具有代表性的端到端决策网络是近期提出的 Drive-Transformer 系列模型。例如 2023年的一项工作提出了 Unified Transformer 架构，实现了感知和规划决策的端到端统一，通过 Transformer将图像序列直接映射到未来轨迹输出，在CARLA模拟环境中达到当时最优性能。还有研究将决策 Transformer （ Decision Transformer）用于导航任务：将以往强化学习的轨迹数据作为序列，利用Transformer预测最优动作，展示了与传统RL相近的效果。 Transformer在决策中的优势包括：可以并行地处理长时间序列（克服 RNN梯度消失问题），擅长多目标关系建模（如同时考虑多个车辆意图）以及易于与预训练模型结合（迁移外部数据知识）。

端到端 Transformer决策网络的输出形式多样，可以是低级控制命令（如转角、油门），也可以是高层规划（如未来 3-5秒的离散路径）。以高层规划为例，模型输出一系列未来位置点或车辆状态，供低层控制跟踪。这种方式通常比直接输出转向角更稳定，因为轨迹考虑了时间维的一致性。一些端到端模型也结合模仿学习和强化学习进行训练，使其既能模仿人类驾驶，又能通过人工奖励优化特定指标（如乘坐舒适度）。

2.4 决策学习范式：模仿学习 vs 强化学习

在引入数据驱动的决策后，核心问题是如何训练决策网络。主要有两种范式：模仿学习 (Imitation Learning) 和强化学习 (Reinforcement Learning) 。

模仿学习（又称行为克隆）：通过学习人类驾驶员的行为数据来训练模型。给定感知输入和当时的人类操作作为监督信号，模型直接回归或分类出与人类相似的决策。这种方法的优点是训练相对简单 ——把决策问题转化为有监督学习，只需大规模驾驶数据即可。许多公司都有海量的真实驾驶日志（如特斯拉收集了数十亿英里用户驾驶数据），这些成为训练决策模型的宝贵资源。模仿学习能让车辆学到人类驾驶的行为偏好，如平稳跟车、礼让行人等，输出风格自然。然而缺点在于分布外泛化问题：模型只能学到训练集中出现的情形，如果碰到从未见过的情况，可能无所适从。此外，训练数据往往偏好正常驾驶，危险边缘场景（如突然加塞）数据较少，模型在这些关键时刻容易犯错。这就需要配合其他策略改进，如 “Datasets Augmentation”或者结合强化学习弥补。

强化学习：通过与环境交互、累积奖励来训练策略。典型做法是在仿真器中让自动驾驶代理自由尝试各种动作，以预先设计的奖励函数为反馈，不断优化决策策略。强化学习不依赖人类示范，理论上能探索到意想不到的新策略，并针对特定目标优化（如通行效率）。一些研究者使用强化学习训练自动驾驶策略，例如在模拟环境中优化车辆通过红绿灯的等待策略或高速公路合流策略。然而强化学习也有显著挑战： (1) 样本效率低：复杂驾驶场景的状态空间庞大， RL需要海量试错迭代，现实中不可能通过真实车辆来大量试错，只能借助高保真模拟；(2) 安全约束难以直接纳入： RL中如果奖励函数没有充分体现安全要求，智能体可能学会疯狂的驾驶方式来优化回报，这在自动驾驶中特别危险。因此，强化学习更多用于离线优化或策略微调，而不是从零学出整个驾驶策略。

第三章未来趋势

全局端到端与多模态大模型

展望自动驾驶技术的未来演进，两个突出的趋势值得关注：其一是系统架构从模块化朝真正全局端到端发展，其二是引入视觉 -语言等多模态的大模型赋能自动驾驶。这两者有相辅相成的关系 ——更强大的模型使全局端到端方案成为可能，而全局端到端又为大模型在系统中的协同提供舞台。本章将深入分析这两大趋势，包括潜在的神经网络设计、训练推理策略、与传统System1/2框架的协作，以及对计算硬件的影响。

3.1 从模块化端到端到全局端到端

模块化端到端指的是各子模块（感知、预测、规划等）依然存在，但通过端到端联合训练方式进行优化，尽量减少中间信息损失。例如感知模块不输出人类定义的目标列表，而输出高维特征供规划使用，并允许规划的误差通过反传影响感知网络权重。这是一种 “软融合”架构，保留模块划分以利用各自优势，但在训练上打通，实现联合优化整个系统目标。相比传统逐层训练，模块化端到端可以提升整体性能（因为减少了模块间不一致），也降低了感知结果错误对决策的影响。

全局端到端 (Global End-to-End) 则更进一步，取消了明确的模块边界，用一个单一的大模型从原始传感器输入直接输出驾驶控制。这是终极形态，如同人类驾驶员从视觉直接决策，不需要先在脑中罗列出所有检测物体再规划。这种架构的潜在优势是： (1) 全局最优：模型可以围绕最终驾驶目标直接优化，避免中间步骤各自为政。 (2) 减少信息瓶颈：传统感知输出有限的边界框 /车道线等，会丢失大量场景信息，而端到端模型内部可以保留原始丰富特征直到最后。(3) 计算高效：一个模型可能比多个模块串联更高效，如无需反复重复特征提取。不过全局端到端也有明显劣势，如训练难度极大（需要端到端大数据和良好训练策略，否则不收敛）、可解释性极低、调试验证复杂，因此目前基本仅存在于研究和概念验证阶段。

全局式端到端的代表：WAYMO的EMMA

为了更清晰了解演进路径，可以参考自动驾驶行业近期提出的架构演进 “四阶段” ：

阶段 1：端到端感知。即感知模块实现多摄像头 /多传感器融合于BEV空间，采用Transformer提高检测精度和稳定性，但预测决策仍是规则为主。多数国内厂商宣称的 “端到端”现处于此阶段，本质还是感知端到端优化，规划未学习化。

阶段 2：基于模型的规划。即引入学习型规划模块，将预测、决策、规划功能用一个神经网络实现，而感知模块仍独立输出传统结果。也就是说，感知和规划各有网络，但接口是人工定义的（如感知输出目标列表给规划）。每个模块仍需独立训练，尚未实现全局优化。尽管如此，此阶段的出现标志着决策不再依赖 if-else，可数据驱动优化复杂场景。

阶段 3：模块化端到端。感知和规划依然分为两块，但通过端到端联合训练连接在一起。关键变化是感知不再输出人类可读的物体列表，而是输出学习的特征表示，这些表示保留更多信息且支持梯度回传。规划模块根据这些特征输出驾驶决策，并以整个系统的损失来训练。这样整个系统朝着统一目标优化，减少了中间信息不对齐问题。特斯拉 FSD近年来逐步接近这一架构，例如其Occupancy Network输出占据栅格给规划，而非传统目标检测。

阶段 4：全端到端一体化。最终阶段是一个模型吃所有输入吐控制输出。这类似 NVIDIA 2016年演示的端到端驾驶网络，但要复杂得多（需要考虑多传感器、记忆等）。该模型可以用模仿或强化学习训练，甚至引入**世界模型 (World Model)**等观念。当前业界几乎没有公开完全达到第四阶段的产品，但Wayve等初创声称其做到了单模型从摄像头到控制。即便如此，为了实用性，他们仍可能附加一些辅助模块以确保安全。

综合来看，未来几年我们预计更多厂商将从第 2阶段迈入第3阶段：也就是感知和规划深度耦合的联合训练框架。这将带来性能提升，但也要求更强算力和更复杂的训练流水线支持。当技术和算力成熟，第 4阶段的纯端到端统一模型才可能真正落地，在Robotaxi等领域率先应用，然后随着成本降低进入乘用车。全局端到端一旦实现，将极大简化系统工程复杂度（硬件布设更简单）并潜在提升性能上限，但其安全验证新难题也将带来监管挑战，需要行业共同努力制定标准和解决方案。

3.2 引入视觉-语言模型 (VLM) 协助驾驶认知

近两年 AI领域另一重大进展是多模态大模型的崛起，特别是视觉 -语言模型 (Vision-Language Model, VLM) 能够将图像和文本信息结合，在多模态理解和推理上达到前所未有的水平。例如 OpenAI的CLIP模型通过对海量图文对进行对比学习，获得了图像和文字共享的语义空间，能够进行零样本的图像识别；更复杂的如Flamingo、PaLM-E等，则能输入图片和文本问题，输出合理的文字回答，表现出一定的“视觉场景理解”能力。

将 VLM引入自动驾驶，有多方面潜在价值：

理解复杂语义场景：摄像头捕获的路面信息中，有许多高阶语义（如路牌指示、施工提示标志、警察手势）是传统感知难以直接量化的。视觉 -语言模型可以将这些视觉内容转换成文字或符号解释。例如，Wayve最新演示了一个语言模型LINGO-2，车载摄像头画面输入模型后，它能生成类似“前方出现施工标志，减速避让” 的描述。这说明模型提取了图像中的关键信息并用自然语言表述，相当于实现了人类驾驶员的注释能力。这种能力可以辅助决策模块更好地掌握场景要点。

提供人机可解释接口： V LM还能让自动驾驶系统的决策过程以语言方式解释给人类。例如Nuro公司的无人配送车上安装了一个平板，乘客可以问车“为什么停下？”系统通过借鉴LLM技术，能够回答“检测到前方有行人横穿，所以停车礼让” 。这增强了用户对自动车的信任度和理解度。同理，运营商也可通过分析模型生成的描述来调试系统或者归因责任。

融合丰富的世界知识：大规模 VLM/LLM蕴含了互联网上庞大知识。例如知道各种车辆类别、交通工具行为模式甚至驾驶经验。这些知识对于自动驾驶长尾问题很有帮助，比如识别出非常罕见的交通标志或者特殊车辆（拖拉机、马车）。Waymo高管就指出，他们的方案正在尝试将 Transformer为基础的语言模型中的常识注入自驾系统，弥补纯视觉模块的不足。一个例子：假如路上出现一个熊过街，感知或许检测不到类别，但大模型可能通过视觉特征 +知识推断出那是动物，需要避让。

人类指令和交互：私家车中的自动驾驶，希望与驾驶者有自然交互，比如车主说 “带我去能看到日落的景点”，车辆需要理解语言并转换为驾驶策略。这就需要Vision-Language模型：先解析语义，再在行驶中理解周围环境与指令相关的元素。

需要强调， VLM并不是来取代视觉感知或决策模块，而更像是增益插件。它提供另一种对场景的理解方式 ——类人类的语言思考。这种语言思维对应心理学上的“系统2”（慢而理性的分析），而传统感知决策更像“系统1”（快而直觉的反应）。二者结合，有望让自动驾驶既有快速反应，又有深度思考。例如，当遇到复杂异常情况时，VLM模块介入分析，输出一句“前方发生事故，建议减速绕行”，然后控制模块执行。这就像老司机的大脑里也会用语言思考当前场景一样。

3.3 视觉-语言-动作模型 (VLA) 与认知驱动驾驶

如果我们再推进一步，我们会畅想 Vision-Language-Action (VLA)模型在自动驾驶中的全盘应用。所谓 VLA，即同时具备视觉理解、语言推理和动作决策能力的模型。一旦实现，这将是自动驾驶 AI形态的质变：相当于一个可以“看、想、说、做”的智能驾驶员。

VLA模型的另一个看点是多模态协同。举例来说，设想 VLA模型的工作流程：

视觉编码：摄像头、雷达的原始数据首先输入视觉子网络，得到一些中间表示（可能是 BEV特征或物体列表）。

语言推理：视觉特征被送入一个大型语言模型（或有语言能力的 Transformer），该模型可能先用内部“语言”描述场景，如“前方100米处有一辆校车正在停车，右侧有人行横道上有行人等待”。这些描述不是对外输出，而是模型内部对场景的理解表述。

规划决策：然后模型在内部和 /或外部通过一系列推理步骤（类Chain-of-Thought），考虑规则（如校车停车需停）、预测他人意图等，最后得出行动方案。这些方案可能也是以语言形式在内部生成，如 “当前应该减速停车等待校车完成上下客”。

动作输出：最后，模型将高层方案转化为具体车辆控制命令或轨迹发送给执行层。

在以上过程中，系统1（快速直觉）对应视觉编码直接出的反应，例如行人突然闯出立刻刹车；系统 2（慢速推理）对应语言推理部分，对复杂情况进行逻辑分析。两者结合让驾驶既迅速又不失深思熟虑。正如Waymo高管所说，来的自驾系统会是Transformer类网络和传统方法的结合。 VLA模型正提供了这样一个框架。

要充分实现 VLA的潜力，还需克服多重挑战。首先是模型规模和算力：多模态大模型参数往往上亿甚至上百亿级，如果全部放在车上实时运行，目前车载 SoC难以支撑。即使压缩到几亿参数，也需要占用相当的计算资源（推理一次可能几十毫秒以上）。这对芯片架构提出新要求，详见下一节硬件讨论。其次，数据获取与训练： VLA模型需要带有语言标注的驾驶场景数据。目前学术上有尝试构建如 COGnitive Driving Corpus (CoVLA) ，包含行车视频及对应解说。这些数据集还很有限，如何高效利用成为问题。可以采取模拟器生成（让人或 AI在模拟中对驾驶过程做注释）来获得大规模数据。

总的来说， Vision-Language-Action模型代表了自动驾驶AI的最高目标形态：像人类一样看路面、用脑内语言思考并驾车行动。虽然当前距离真正落地还有差距，但越来越多迹象表明我们正向这个方向迈进。可以预见，未来当我们坐上自动驾驶车，车内 AI不仅能安全驾驶，还可能充当聊天伙伴，向我们讲述正发生的交通故事，这将极大改变人车交互体验。

3.4 模型规模、延迟与芯片架构的协同演进

无论是全端到端模型还是 VLA大模型，一个无法回避的问题是：如此庞大的模型如何在车载计算硬件上实时运行？模型参数量、所需算力、推理时延都对芯片架构提出了更高要求。

回顾前文，传统 2D感知CNN大约几千万参数，在早期NVIDIA GPU或MobilEye EyeQ上即可跑实时；BEV+Transformer模型提升到五千万以上参数，需要百TOPS级算力才能支撑多摄像头25Hz运行；Occupancy Network进一步加大计算量（多相机、4D时序），特斯拉为此设计了144 TOPS的FSD芯片才勉强达到每秒100帧效果。而多模态大模型，如一个含有 Transformer解码的VLA模型，参数可能上亿甚至十亿，其计算量和内存需求远超以往。推理延迟也会拉长 ——例如GPT-3级别模型用高端GPU推理一次需数百毫秒甚至数秒，显然无法直接用于毫秒必争的驾驶决策。

为了解决这些矛盾，业界和学界正在多方努力：

1. 模型压缩与高效推理：针对特定任务的大模型，可以通过蒸馏、剪枝、量化等技术压缩。比如 DeepRoute的VLA若真要上车，可能采用8-bit甚至4-bit量化加速推理，同时用知识蒸馏训练一个较小网络保留大模型的性能。此外，**Mixture-of-Experts (MoE)**是一个有前景方向，让一个超大模型由多个专家子模型组成，推理时根据需要激活一部分专家。有研究在驾驶VLA上用MoE，仅在需要复杂推理时调用完整LLM，平时用小模型，达到性能和效率折中。

2. 芯片架构优化：芯片厂商已经注意到 Transformer工作负载的重要性。NVIDIA在新一代GPU和SoC中引入了专门的 Transformer加速单元（如 TensorRT中的Transformer Engine），可对自注意力算子进行低精度高效计算。寒武纪等国内厂商也在设计针对大模型优化的NPU架构。存储与带宽也是大模型运行瓶颈之一，未来车载芯片可能集成更大片上 SRAM或HBM存储，以供巨量参数高速访问。Ambarella在2024年发表文章指出，领先的自动驾驶方案正部署Transformer BEV感知，需要芯片提供更高算力和内存带宽，以免感知瓶颈“卡住”后续规划。由此推断，下一代车规SoC（如NVIDIA Orin的继任Thor、地平线征程6等）都会瞄准数百至上千 TOPS 算力，并重点优化 Transformer和稀疏算子性能。

3. 协同计算 (Cloud-Offloading) ：另一种思路是在车云协同体系下，将部分大模型推理放在云端。车辆本地运行快速的低级控制和简单场景处理，而遇到复杂情况或需要深度理解时，将相关感知信息上传云端，由超级计算中心上的大模型来分析决策，再下发指导。这类似人类遇到难题求助远程专家。当然，这要求稳定的通信和低延迟网络，所以短期内只在有限场景或 5G覆盖区域可行，而且引入了安全和可靠性隐患（通信中断则高级功能失效）。因此业界更倾向在车端解决问题。

4. 渐进式部署：在模型和芯片没有完全准备好前，一种策略是渐进引入。比如视觉 -语言模型先用于非实时辅助功能（如事后分析驾驶数据、提供驾驶报告），等硬件跟上了再逐步介入实时决策。 Tesla FSD目前大部分仍是视觉网络+传统Planner，但他们很可能在后台已经运行一些大模型做分析，以验证效果。随着Hardware 4.0、5.0性能提高，再把这些模型并入主循环中。

硬件发展与算法进步总是相辅相成的。过去十年 GPU/TPU算力提升了百倍以上，才支撑起今天的自动驾驶深度学习。本白皮书下一节将详细比较当前主流自动驾驶计算平台的性能和取舍。可以预见，为满足全局端到端和VLA模型的需求，自动驾驶芯片将向 “更大、更专用、更智能”演进：算力至少上千 TOPS级，专门为Transformer/大矩阵优化，甚至片上集成一些简化的语言模型模块硬件。真正实现AI驱动汽车大脑，需要软硬件的共同飞跃。

结语

自动驾驶技术正处于从感知驱动走向认知驱动的关键拐点。回顾过去十年，我们见证了感知模块从二维图像 CNN一路演进到三维Occupancy网络，实现了对环境更加全面细致的刻画；决策模块从人为规则过渡到数据驱动，开始涌现端到端的智能策略，努力逼近甚至超越人类驾驶水平；同时，计算硬件不断升级，从几十 TOPS的芯片发展到数百TOPS，支撑着越来越复杂的神经网络在车端实时运行。这一切进步相辅相成，将自动驾驶推向新的高度。

展望未来，自动驾驶系统将日益呈现出 “大一统智能体” 的形态 —— 跨越视觉、语言、动作的界限，在一个统一模型内完成对驾驶环境的理解和决策。这有赖于全局端到端架构的成熟以及多模态大模型的融入。当视觉-语言-动作模型真正成为车辆的大脑，我们将迎来自动驾驶2.0时代：车辆可以像经验丰富的司机那样，不仅看清路况，还能“思考”行驶策略，甚至用人类语言与我们交流它的决策依据。

然而，机遇伴随挑战。越智能的系统越是复杂黑箱，这对安全验证和监管提出前所未有的难题。产业界和学术界需要合作，发展新的验证工具和标准，确保大模型驱动的自动驾驶依然可控、可验证。另一方面，算力的饥渴将持续存在，推动芯片架构的不断革新和算力网络的建设。

对于研发工程师而言，知识结构也需随之演进。未来的自动驾驶研发将是一门横跨感知、认知、硬件的综合性学科，懂深度学习也要懂芯片架构，既要能训练大模型也要能做系统工程优化。本白皮书希望提供一个全面的技术脉络，帮助读者梳理关键概念和前沿方向。在具体开发中，还需结合实际需求权衡选择适当的算法和硬件方案。

自动驾驶被誉为 “AI皇冠上的明珠”，其复杂性和潜在社会价值无与伦比。感知、决策、硬件这三驾马车正在齐头并进，拉动行业驶向更高的山峰。或许在不远的将来，当我们坐上无人驾驶车，它能可靠地接送我们，同时偶尔风趣地播报一声： “前方美景不错，我已放慢车速供您欣赏” ——那将标志着自动驾驶技术真正融入了人类的智慧与温度。让我们拭目以待这一天的到来。

957 次浏览