一文读懂VLA模型在自动驾驶中的演进史

作者：小橙子爱人工智能

346 次浏览

8 次

2025-11-10

编辑推荐:

文章详细介绍了VLA大模型技术在自动驾驶场景的演进过程。希望对您的学习有所帮助。
本文来自于微信公众号小橙子爱人工智能，由火龙果软件Alice编辑、推荐。

摘要

本文深入分析了视觉-语言-行动（Vision-Language-Action, VLA）模型在自动驾驶中的应用，即VLA4AD。VLA大模型在单一决策中融合了视觉感知、自然语言理解和车辆控制，解决传统自动驾驶系统在可解释性、人机交互和长尾场景处理方面的问题。

自动驾驶技术已从经典的模块化设计演进到端到端学习，再到引入视觉语言模型（VLM）以增强推理能力。VLA4AD引入了大语言模型能力，使车辆能够遵循高级指令（如“给救护车让路”）、输出决策过程（通过思想链推理），并利用大语言模型从大规模数据中获得的常识来处理罕见或从未遇到过的场景。

1. 自动驾驶技术的演进

自动驾驶（AD）技术的发展可以分为四个主要阶段

● 经典模块化流程: 以DARPA城市挑战赛的车辆为代表，这类系统将驾驶任务分解为独立的模块：感知、预测、规划和控制。该系统通过手写算法处理雷达和GPS定位数据，包含传统的物体识别视觉算法，有些状态机或基于图的搜索生成路线，以及PID或者MPC控制器执行最终的指令。这种架构易于模块化的独立开发和测试，但严格的将系统分成4个模块会导致信息碎片化：上游未经校验的错误会在下游逐级放大，并且4个模块之间目标不同导致无法进行端到端一体的优化。

● 端到端自动驾驶: 为解决模块化流程的弊端，端到端（E2E）方法直接将原始传感器输入映射到控制指令。这种方法简化了系统，但依然存在挑战：难以处理罕见场景和快速变化的场景、过程“黑盒”缺乏可解释性造成安全验证困难、缺乏语言理解能力导致人机交互受限制。

● 用于自动驾驶的视觉语言模型（VLM4AD）: 融合语言模态到驾驶任务中，是提高自动驾驶系统的推理能力、可解释性和泛化能力的可行方向。视觉语言模型（VLM）和大型语言模型（LLM）通过统一感知和自然语言到相同的向量空间提供了解决方案。大规模的多模态数据训练为VLM模型带来了强大的语义先验知识，例如将警报声与让道进行关联。基于语言的VLM模型在应对新物体、天气和驾驶规范展现出了强大的泛化能力。然而，基于VLM的自动驾驶系统仍然是以感知为中心，其、它的语言输出与底层控制信号是耦合的，且没有规范的安全体系确保输出的语言指令是安全的。如何将VLM的输出映射到动作是一个挑战。

● 从VLM到VLA的演进（VLA4AD）: 受具身智能(embodied intelligence)领域的启发，VLA模型通过引入一个显式的行动解码器，将感知、推理和控制统一在单一策略中。这使得车辆不仅能理解场景，还能根据高级语言指令直接生成驾驶动作，从而解决了VLM遗留的从推理结果到驾驶行动的问题。最新的VLA自动驾驶系统，可以针对视觉信息、语言信息和动作进行联合推理，将文字和路径规划结果、长期记忆、典型的安全检查、多模态的扩散规划结合在一起，代表了从被动感知系统向主动、可解释、可交互的多模态智能体的决定性转变。

2. VLA4AD 架构

VLA4AD的典型架构整合了多模态输入、核心处理模块和多样化的驾驶输出，形成一个连贯的系统。

2.1. 多模态输入与语言指令

● 视觉数据: 从早期的单目前置摄像头发展到立体摄像头、多摄像头设置，再到全环视系统，以实现更鲁棒的场景理解和多物体的推理。输入可以是原始图像，也可以是鸟瞰图（BEV）等结构化表示。

● 其他传感器数据: 激光雷达（LiDAR）用于精确的3D结构感知，雷达（RADAR）用于速度估计，惯性测量单元（IMU）用于运动跟踪。GPS提供全局定位，而车辆自身的本体感知数据（如转向角、油门、加速度）则用于行为预测和闭环控制。

● 语言输入: 语言输入从简单的导航指令（如“在下一个路口左转”）发展到复杂的环境查询（如“现在变道安全吗？”）、多轮对话和思想链（CoT）推理。最新的研究甚至开始融合口语，以实现更自然的交互。

2.2. 核心架构模块

VLA4AD模型的核心由三个相互协作的模块组成：

1. 视觉编码器: 使用如DINOv2或CLIP等大型自监督基础模型将原始传感器数据转换为潜在表示。许多系统采用BEV投影，并融合多尺度特征以提高空间定位的精确性。

2. 语言处理器: 通常使用预训练的解码器（如LLaMA2或GPT系列）处理自然语言指令。可以通过低秩自适应（LoRA）高效微调或者RAG的方式给模型注入驾驶领域的知识，以适应驾驶领域的特定需求。

3. 行动解码器: 负责生成驾驶决策。其实现方式包括：

a. 自回归分词器: 顺序预测离散的动作或轨迹点。

b. 扩散头: 基于融合的特征向量采样连续的控制信号。

c. 分层控制器: 由语言规划器生成子目标，交由底层的PID或MPC控制器执行。

2.3. 驾驶输出

VLA模型的输出形式反映了其抽象层次和操作目标，主要分为两类：

● 低层动作: 早期的VLA自动驾驶系统直接预测转向角、油门和刹车等原始控制信号。这些信号动作被建模成连续的输出或者离散的动作令牌，适用于PID的集成或者端到端的控制流。这种方式控制粒度精细，但对细微的感知错误较为敏感，并且缺乏长线的规划能力。

● 轨迹规划: 后续的研究转向预测未来路径的航点或完整轨迹，是一种更为稳定和可解释的中间状态。输出的轨迹，通常是通过BEV或自我为中心的坐标系来表示，可以由MPC（model predict control）控制器或下游规划器灵活执行。这种形式使VLA模型能够支持更长时程的推理和更高效地整合多模态环境信息。

3. VLA4AD 的发展过程

VLA4AD的研究可以分为四个清晰的演进阶段，语言在其中扮演的角色从被动描述演变为主动控制。

从左至右展示了四个阶段：VLM作为解释器、模块化VLA、端到端VLA和增强型VLA。

1. VLA 前身：作为解释器的语言模型: 在此阶段，语言模型仅作为被动用于增强可解释性的描述角色，一个典型的流程是通过固定的视觉模型（如CLIP）配合语言解释器，来解释驾驶场景或者以自然语言的方式推荐驾驶动作，而不直接参与控制。例如，DriveGPT-4 会为摄像头图像生成文本描述（如“减速”、“左转”），但实际控制仍由传统模块（PID 控制器等）负责。这种模式提升了透明度，但存在延迟，以及视觉信息冗余的问题。

2. 模块化 VLA 模型: 语言从被动描述转变为主动规划的一部分。模型将语言指令转化为中间表示（如航点或行为标签），再由独立的行动模块转换为具体轨迹。例如，CoVLA-Agent 将选定的动作令牌（如“左转”）映射到轨迹，而 SafeAuto 则使用符号化的交通规则来验证语言驱动的规划。

3. 统一的端到端 VLA 模型: 随着大型多模态基础模型的出现，研究转向了将传感器输入直接映射到驾驶动作的统一网络。例如，SimLingo 通过一种名为“行动构想”（action dreaming）的技术，将语言指令与生成的轨迹紧密耦合。DiffVLA 则使用扩散模型基于文本的场景描述生成驾驶轨迹。

4. 推理增强型 VLA 模型: 最新阶段的模型将大型语言模型置于控制环路的中心，专注于长时程推理、记忆和交互性。ORION 使用一个记忆模块存储历史观测数据，并由LLM生成下一步的轨迹和解释。AutoVLA 则在单一的自回归Transformer中融合了思维链（CoT）推理和轨迹规划，实现了最先进的闭环驾驶性能。

代表性VLA4AD模型概览（2023–2025）

模型名称	年份	视觉输入	输出类型	核心贡献
DriveGPT-4	2023	单摄像头	低层控制	可解释的LLM混合微调
ADriver-I	2023	单摄像头	低层控制	基于扩散世界模型的视觉-行动令牌
RAG-Driver	2024	多摄像头	低层控制	基于检索增强生成（RAG）的控制与解释
EMMA	2024	多摄像头+状态	多任务	用于多任务输出的MLLM骨干网络
CoVLA-Agent	2024	单摄像头+状态	轨迹	文本+轨迹双输出，自动标注数据
OpenDriveVLA	2025	多摄像头	低层控制+轨迹	2D/3D对齐，SOTA规划器
ORION	2025	多摄像头+历史	轨迹	思想链（CoT）推理，连续动作输出
DriveMoE	2025	多摄像头	低层控制	专家混合（MoE）架构，动态路由
DiffVLA	2025	多摄像头+状态	轨迹	混合扩散VLM采样
SimLingo	2025	多摄像头	低层控制+轨迹	增强型VLM，行动构想技术
SafeAuto	2025	多摄像头+状态	低层控制	基于交通规则的PDCE损失函数
Impromptu-VLA	2025	单摄像头	轨迹	针对罕见场景的问答，NeuroNCAP SOTA
AutoVLA	2025	多摄像头+状态	低层控制+轨迹	自适应推理，多基准测试

4. 数据集与基准

VLA4AD的发展得益于一系列丰富的数据集和基准测试平台，它们为模型训练和评估提供了支持。

数据集/基准名称	年份	领域	规模	模态	任务
BDD100K / BDD-X	2018	真实世界	10万视频；7千片段	RGB视频	描述生成，问答
nuScenes	2020	真实世界	1千场景（20秒，6摄像头）	RGB, LiDAR, Radar	检测，问答
Bench2Drive	2024	仿真 (CARLA)	220条路线；44种场景	RGB	闭环控制
Reason2Drive	2024	真实世界	60万视频-问答对	RGB视频	思想链式问答
DriveLM-Data	2024	真实+仿真	1.8万场景图	RGB, 图	图问答
Impromptu VLA	2025	真实世界	8万片段（30秒）	RGB视频, 状态	问答，轨迹预测
NuInteract	2025	真实世界	1千场景	RGB, LiDAR	多轮问答
DriveAction	2025	真实世界	2.6千场景；1.62万问答	RGB视频	高级问答

5. 训练与评估策略

5.1. 训练范式

● 监督模仿学习 (IL): VLA4AD的主要训练方法。模型通过最小化损失函数来模仿专家的驾驶行为（控制或轨迹）。这种方法易于扩展，但容易受限于训练数据的分布，对罕见场景覆盖不足。

● 强化学习 (RL): 通常在IL预训练后使用。策略在模拟器中与环境交互，通过奖励函数（如路线完成度、避免碰撞）进行优化。RL在处理边缘案例方面潜力巨大，但如何平衡驾驶奖励与语言保真度仍是开放性问题。

● 多阶段训练: 多数模型采用四阶段训练流程：

○ 大规模预训练: 在通用图文和视频数据集上训练视觉和语言编码器。

○ 多模态对齐: 在包含图像-文本-行动的数据集上进行微调。

○ 针对性增强: 注入特定的交通场景和指令，并通过RL或基于规则的惩罚来强制执行安全约束。

○ 模型压缩: 通过LoRA、MoE或蒸馏等方法降低模型部署时的计算和内存开销。

5.2. 评估协议

VLA4AD的评估是双重目标的：既要安全驾驶，也要忠实传达信息。因此，评估通常围绕四个方面展开：

1. 闭环驾驶性能: 在CARLA等模拟器中评估路线成功率、违规次数（碰撞、闯红灯）和规则遵守情况。

2. 开环预测能力: 在nuScenes等数据集上评估轨迹预测的L2误差和碰撞率。

3. 语言能力: 评估指令遵循的准确性、生成解释的质量（如BLEU/CIDEr分数）以及推理链的逻辑一致性。

4. 鲁棒性与压力测试: 分析模型在传感器损坏（模糊、遮挡）和语言噪声（俚语、对抗性提示）下的性能。

6. 开放性挑战与未来方向

6.1. 开放性挑战

1. 鲁棒性与可靠性: 语言推理引入了新的故障模式，如模型幻觉。如何通过形式化验证和逻辑约束来保证安全是核心挑战。

2. 实时性能: 在车载硬件上以≥30Hz的频率运行大型VLA模型极具挑战性，需要模型压缩和硬件感知优化。

3. 数据与标注瓶颈: 获取高质量的视觉-语言-行动三模态数据成本高昂且稀缺。

4. 多模态对齐: 如何有效融合摄像头、LiDAR、雷达、高清地图和时间状态等异构数据，仍是悬而未决的问题。

5. 多智能体社会复杂性: 从双车协调扩展到密集交通场景，需要建立可信、安全的车与车（V2V）通信协议。

6. 领域自适应与评估: 模型的跨区域泛化、从模拟到现实的迁移以及持续学习能力尚不成熟，缺乏统一的评估标准。

6.2. 未来方向

1. 基础驾驶大模型: 构建一个类似GPT的、在海量多传感器数据上预训练的“驾驶骨干网络”，使其能够通过少量数据快速适应下游任务。

2. 神经符号安全内核: 结合神经网络的灵活性和符号逻辑的可验证性，让VLA模型输出结构化的行动计划，再由符号验证器执行，以保证安全。

3. 车队规模的持续学习: 利用部署车辆上传的简洁语言摘要（如“某地出现新的交通指挥员”）进行云端模型更新，实现整个车队的知识自举。

4. 标准化的交通语言: 为车辆间通信定义一套受约束的、基于本体论的消息集，类似于航空领域的ICAO短语。

5. 跨模态社交智能: 未来的系统需要能够理解手势、语音和标志等非语言线索，并能以人类可读的方式做出明确回应，实现更高级的人机交互。

346 次浏览

8 次