机器人的超级大脑 —— VLA模型解析

作者：北湾南巷

4 次浏览

1 次

2026-7-2

编辑推荐:

本文主要介绍了VLA（视觉-语言-动作）模型如何通过将“看、懂、做”统一到一个端到端的神经网络中，使机器人从依赖预设规则的自动化设备进化为具备理解、推理和泛化能力的通用具身智能体，希望对你的学习有帮助。
本文来自于具身智能技术，由火龙果软件Alice编辑推荐。

引言

现在的机器人，早就不是过去那种靠死规则驱动的“编程傀儡”了。曾经的机器人更像是一台被精确操控的自动化机器，程序员提前写好所有规则：

如果检测到A，就执行B;
如果环境变化超出预期，机器人直接“懵圈”。

它们不会理解语言，不知道自己“看见”了什么，更谈不上在复杂真实世界中自主决策。但这一切，正在被 VLA（Vision–Language–Action，视觉-语言-动作）模型彻底改写。

1、先搞懂 : VLA到底是什么？机器人的「超级大脑」

如果只用一句话概括—— VLA（Vision–Language–Action）模型，就是让机器人第一次拥有“完整认知闭环”的大脑。

过去的机器人系统，其实是“碎片化智能”：

视觉模块负责看
NLP模块负责听
控制模块负责动

它们之间靠人工规则、接口协议强行拼接，一旦环境或任务变化，系统就很容易崩溃。而 VLA的革命性之处在于：它把“看、懂、做”这三件事，压缩进同一个模型空间里统一学习。

1.1 VLA的三大核心能力：看、懂、做，一步到位

1.1.1 视觉（Vision）：不只是识别物体，而是理解“可行动的世界”

在VLA模型中，视觉输入通常来自：

RGB 摄像头
深度相机（RGB-D）
有时还包括触觉、力反馈等传感器

但重点不在“看得清不清”，而在于—— 看懂什么是“和任务相关的”。 VLA的视觉能力通常学会三类关键信息：

物体语义：这是苹果、盘子、桌子
空间关系：苹果在盘子左边 / 被遮挡 / 可抓取
动作可行性（ Affordance）：

能不能抓
从哪个角度抓
抓了会不会失败

也就是说，视觉输出的不是“像素”，而是为动作服务的世界理解。

1.1.2 语言（Language）：把人话翻译成“机器能推理的目标”

VLA里的语言模块，本质是一个高阶意图解释器。当人类说出一句自然语言，比如：“把苹果放到红色盘子里”。语言编码器要做的，不是简单语义解析，而是：

理解“苹果”和“红色盘子”是视觉实体
判断这是一个目标导向任务
提取约束条件（颜色、位置、动作结果）

通常会使用：

BERT / T5（偏理解）
LLaMA / GPT 类模型（偏推理）

最终输出的是一个语义向量表示，作为后续动作规划的“任务锚点”。这一步，直接决定了机器人是不是“听懂了你想要什么”。

1.1.3 动作（Action）：不是执行指令，而是生成行为

动作模块是 VLA 最容易被低估、但也最硬核的部分。在传统系统中，动作通常是：

预设轨迹
固定策略
规则驱动控制

而在 VLA 体系下：动作是模型根据当前状态“生成”的结果，动作输出可能是：

机械臂各关节的连续角度
夹爪的开合力度
移动机器人的速度与方向
多步动作序列（抓 → 抬 → 移 → 放）

更关键的是：动作生成是条件性的、动态的、可随时修正的。机器人不是“想好了再做”，而是边看边做、边做边调整。

1.2 VLA的核心架构：一套端到端的多模态流水线

你这个“搭积木”的比喻非常准，我们可以把整个 VLA 拆成四大模块：

1.2.1 视觉编码器：把世界压缩成“可理解特征”

常见技术包括：

ResNet / ConvNet：擅长局部特征
ViT（Vision Transformer）：擅长全局关系

视觉编码器的目标不是分类，而是输出高维语义特征向量，例如：

物体类型
空间布局
潜在操作区域

这些特征会被送进后续的多模态模块，与语言信息对齐。

1.2.2 语言编码器：把“人话”变成“任务表征”

语言模型在这里扮演的是意图抽象器：

把自然语言 → 向量
把模糊表达 → 结构化目标

很多前沿工作已经开始用冻结的大语言模型，只训练后续模块，这大幅提升了理解能力，也减少了训练成本。

1.2.3 多模态融合模块：VLA的“灵魂所在”

这是整个系统最关键的一步。融合模块通常基于：

Cross-Attention
多模态 Transformer
联合嵌入空间（Joint Embedding Space）

它要解决一个本质问题：语言里提到的“苹果”，到底对应画面中的哪一个？

通过对齐，模型能建立起：

词语 ↔ 视觉实体
语义目标 ↔ 空间位置
动作意图 ↔ 环境约束

这一步，决定了机器人会不会“看错、理解错、抓错”。

1.2.4 动作解码器：从“理解”到“物理执行”

动作解码器负责把融合后的表示，转换为：

低层控制信号
或高层动作指令

常见形式包括：

连续动作回归
离散动作 token 化
行为序列生成（类似语言生成）

很多最新工作，甚至把“动作”当成一种语言来建模，这也是 VLA 泛化能力强的关键原因之一。

1.3 为什么说 VLA 是通用机器人的关键？

VLA不是为“一个任务”设计的，而是为“学会做任务”设计的。

它的核心优势在于：

端到端学习：减少人为规则
强泛化能力：新任务、新环境也能迁移
组合能力：学过的技能可以自由拼装

这意味着：

不用为每个新场景重新写代码
不用为每个物体单独训练策略
机器人开始具备“举一反三”的能力

这，才是从“专用机器人”迈向通用机器人的真正门槛。

2、技术突破史：从 0 到 1 的狂飙进化

如果回头看 VLA 的发展速度，会发现一个非常反直觉的事实：它不是慢慢成熟的，而是连续“跳跃式进化”的。

短短三年时间，VLA 完成了从

「实验室概念」→「通用机器人中枢」

的跨越，每一个关键节点，都在重构机器人智能的基本范式。

2.1 奠基期（2022–2023 初）：RT-1 与 PaLM-E，第一次“跑通闭环”

这一阶段的核心问题只有一个：多模态模型，真的能控制真实机器人吗？

RT-1：第一次证明“端到端是可行的”

Google 推出的 RT-1（Robotics Transformer 1），是VLA历史上的第一个真正意义上的落地模型。

它的突破点不在参数规模，而在数据和建模方式：

使用 13 万条真实机器人操作轨迹
覆盖数百种日常操作任务
输入：摄像头画面 + 自然语言
输出：连续机械臂动作

最震撼的数据是：

1. 训练任务成功率高达 97%

2. 对未见过的新任务，依然具备可观泛化能力

这直接击碎了一个长期存在的质疑：“机器人必须为每个任务单独设计控制策略”

RT-1 证明：一个统一模型，就能覆盖大量不同技能。

PaLM-E：把“世界”塞进语言模型

如果说 RT-1 解决的是“能不能动”，那 PaLM-E 解决的则是—— 能不能真正理解世界？ PaLM-E 的做法极其激进：

基于 5620 亿参数的 PaLM 语言模型
把图像、机器人状态、传感器信息全部当作“语言 token”嵌入模型

结果出现了一个关键现象：正迁移（Positive Transfer）

也就是说：

加入机器人任务后
模型在视觉问答、推理任务上的表现反而更好了

这第一次证明：具身经验，不是拖累语言模型，而是增强认知能力。这一发现，直接影响了后续所有 VLA 架构设计。

2.2 范式确立（2023.7）：RT-2 封神，动作=语言

如果说前面是“能跑”，那么 RT-2 的出现，直接定义了“怎么玩”。

核心革命：把动作离散化成 Token

RT-2 做了一件极其大胆的事：把连续的机器人动作，离散成“文字序列”

例如一个 7 维动作向量，被编码为：1 128 91 241 5 101 127这意味着什么？

1. 机器人控制，被彻底转化为“语言生成问题”

2. 可以直接复用大语言模型的推理、泛化、组合能力

这是 VLA 真正的“范式切换”。涌现能力：不是教会的，是“长出来的”

RT-2 最震撼的，并不是执行精度，而是从未显式训练却自然出现的能力：

抽象指令理解 “把东西放在数字 3 上”（模型从未学过“数字 3 的位置概念”）
常识推理 “敲碎香蕉” → 选择石头而不是苹果
链式思考（Chain of Thought）

需要敲碎 →需要硬物 →石头更硬 →抓石头

这已经不再是“控制算法”，而是具身推理能力的雏形。

2.3 开源浪潮（2024）：VLA 从“神坛”走向“普惠”

2024年，是 VLA 真正爆发的一年。关键词只有一个：去中心化。

OpenVLA：把门槛打下来

OpenVLA 是首个工程级可用的开源 VLA 框架：

支持多种机器人平台
使用 LoRA 微调
只需调整 ≈1.4% 参数就能适配新硬件

这意味着：中小实验室，创业团队，甚至个人研究者都可以玩得起 VLA 。

Octo：轻量化路线的胜利

Octo 证明了另一件事： VLA 不一定非要“巨无霸”

27M / 93M 参数
使用扩散策略（Diffusion Policy）
输出连续动作
一套模型适配多种机器人形态

它更像是： “机器人界的 MobileNet + Transformer”

π0：高频连续控制的技术突破

π0 引入了流匹配（Flow Matching）技术：

可生成 50Hz 高频连续动作
极其平滑、稳定
擅长精细操作

例如：

折叠衣物
分类杂货
复杂手部动作

这一步，补上了 VLA 在精细操作上的最后一块短板。

2.4 群雄逐鹿（2025）：VLA 正式拥抱人形机器人

到了 2025 年，VLA 的主战场发生了根本转移：从机械臂 → 人形机器人

人形机器人带来的挑战是指数级的：

自由度暴涨
动作耦合更复杂
长时序任务成为常态

于是，一个新共识形成了：单一时间尺度的模型不够用了，双系统架构成为主流。

Figure AI · Helix

快系统（200Hz）：负责实时动作控制
慢系统（7–9Hz）：负责高层规划与理解
能控制人形机器人全上半身
甚至支持双机器人协同作业

这已经非常接近人类的“反射 + 意识”分工。

NVIDIA · GROOT N1

完全开源
混合：

真实机器人数据
仿真数据
人类操作视频

动作连续、稳定、极其丝滑

GROOT 更像是 VLA 的“工业标准底座” 。

Google · Gemini Robotics

双模型设计：

一个管逻辑推理
一个管动作执行

能完成：

折纸
做沙拉
多步骤家庭任务

这标志着： “通用具身智能”已经不再只是实验展示。

回看这三年，你会发现 VLA 的进化逻辑非常清晰：先跑通 → 再统一范式 → 再规模化 → 再复杂化

而现在，它已经站在了通用人形机器人智能中枢的门口。

3、核心技术揭秘：这些黑科技撑起 VLA

如果把 VLA 看成一台“超级大脑”，那下面这四项技术，就是它的血液、神经、运动系统和大脑结构。缺任何一个，VLA 都跑不起来。

3.1 数据是燃料：Open X-Embodiment，跨形态智能的根基

在 VLA 之前，机器人学习最大的问题只有一个：数据太少、太碎、太专用。 Open X-Embodiment 的出现，本质上解决的是“机器人版 ImageNet”的问题。

数据集到底有多狠？

Open X-Embodiment 汇集了：

22 种不同机器人形态

不同机械臂
不同自由度
不同控制接口

100 万 + 条真实操作轨迹，涵盖：

抓取
放置
推拉
组合操作
长时序任务

最关键的一点是：这些数据被统一成同一种“抽象动作空间”

跨形态训练：为什么能“举一反三”？

传统思路是：一种机器人，一套模型，Open X-Embodiment 则反过来：

让模型学“任务本身”，而不是“某个机器人怎么动”

例如：

抓杯子
不管是两指夹爪、三指手、还是五指灵巧手
本质任务是一样的

VLA 学到的是“抓取的语义和几何结构”，而不是具体关节角度。这也是为什么一个在 A 机器人上训练的 VLA，可以零样本或少样本迁移到 B 机器人上。

3.2 模仿学习：从“人类示范”中偷师

强化学习在机器人领域一直很难落地，原因很现实：

真实机器人试错成本极高
一次失败，可能就是硬件损伤

于是，模仿学习（Imitation Learning）成为 VLA 的主力训练方式。

3.3 人类遥操作：最昂贵，但最有效的数据

常见方式包括：

VR 控制机械臂
示教器拖动
手动遥操作

人类直接告诉机器人：“这件事，应该这样做。”这相当于给模型一条“正确解的捷径” 。

3.4 动作分块（Action Chunking）：让动作更“像人”

如果让模型一步一步生成动作，会出现两个问题：

抖动
不稳定

解决方案就是：动作分块。模型不输出“下一毫秒干什么”，而是输出：接下来一小段时间的动作序列，好处非常直观：

动作更平滑
规划更稳定
误差不易累积

这和人类运动控制中的“运动单元”高度一致。

3.5 扩散模型 & 流匹配：复杂动作生成的终极武器

随着任务复杂度上升，传统动作生成方式开始失效：

多模态动作空间
同一目标有多种可行解
连续控制极其不稳定

这正是扩散模型（Diffusion）和流匹配（Flow Matching）登场的舞台。

3.6 扩散策略：从“噪声”中长出动作

扩散模型的核心思想是：不是直接预测动作，而是逐步“去噪”生成

这在机器人领域带来了三个巨大优势：

天生稳定
能覆盖多种动作模式
不容易陷入局部最优

Octo 等模型，正是靠扩散策略，在小模型下仍然实现了强泛化。

3.7 流匹配：为高频控制而生

流匹配可以理解为：学习一条从“随机动作”到“最优动作”的连续轨迹

它的优势在于：

可以生成高频(如 50Hz)连续动作
动作变化极其平滑
非常适合精细操作

π0 之所以能折衣服、装杂货，靠的正是这一套连续控制能力。

3.8 双系统架构：像人一样“想”和“动”

随着机器人任务变得越来越复杂，一个单一模型开始力不从心。于是，VLA 领域逐渐形成一个共识：必须拆分时间尺度。

3.9 慢系统：负责“理解与规划”

慢系统通常：

更新频率低（几 Hz）
接收：

视觉
语言
世界状态

负责：

任务分解
逻辑推理
高层动作规划

它更像是：前额叶皮层。

3.10 快系统：负责“即时执行”

快系统则：

高频运行（几十到几百 Hz）
只关注：

当前状态
局部目标

输出：

实时控制信号

它更接近：人类的运动皮层 + 小脑。

3.11 两者协作，才是真正的通用智能

慢系统告诉快系统：“接下来，把苹果放进盘子。”快系统负责解决：“现在这一刻，手该怎么动？”这种架构，几乎是唯一可扩展到人形机器人的路线。

VLA 之所以能成立，不是靠某一个“神模型”，而是靠一整套协同进化的技术栈：大规模数据 + 人类示范 + 先进生成模型 + 仿生架构它们一起，把机器人从“自动化设备”，推向了真正的具身智能体。

4、未来已来？挑战与机遇并存

必须承认一句话：今天的 VLA，已经远超“惊艳演示”，但距离“可靠通用智能”仍有鸿沟。这条鸿沟，不是算力问题，也不是模型规模问题，而是物理世界的残酷现实。

4.1 仍未攻克的关键挑战：VLA卡在哪？

高质量机器人数据，依然是“稀缺资源” 和互联网数据不同，机器人数据有三个天然劣势：

贵：一条真实机器人轨迹 = 时间 + 人力 + 硬件损耗
慢：一天能采集的数据量，远不如网络爬虫
不通用：不同机器人、不同传感器、不同控制接口，难以直接复用

即便有 Open X-Embodiment 这样的突破，但和语言模型的“万亿 token”相比，具身数据仍然处在“前寒武纪”阶段。这直接限制了 VLA 的上限。

4.2 物理世界的安全与可靠性：错一次，代价极高

在数字世界里，模型犯错只是“答错题”；但在物理世界：

抓错 → 物体损坏
判断失误 → 设备受损
行为异常 → 可能危及人类安全

当前 VLA 的一个核心问题是：它“看起来很聪明”，但并不总是“可控”。如何做到：

可预测
可解释
可约束

是 VLA 迈向大规模商用的硬门槛。

4.3 长时程任务：从“会做动作”到“会完成目标”

现在的 VLA 非常擅长：

单任务
短流程
明确目标

但现实世界的任务往往是：“去厨房 → 找杯子 → 如果没洗先洗 → 倒水 → 端过来”，这涉及：

记忆
条件分支
失败回退
子任务重规划

也就是说： VLA 的“肌肉”已经很强，但“耐力和战略意识”还在成长中。

4.4 那为什么大家依然如此乐观？

答案很简单： VLA 的技术曲线，已经跑在“指数段”上。我们正在同时看到四条趋势叠加：

数据规模持续扩大（真实 + 仿真 + 人类视频）
架构不断仿生化（双系统、多时间尺度）
生成模型持续进化（扩散、流匹配）
硬件与算力同步成熟

这些趋势一旦叠加，就会出现非线性跃迁 ——就像语言模型在 2020–2023 年经历的那样。

4.5 VLA模型发展时间线总结（3年=一代技术范式）

这张时间线，本质上不是“模型列表”，而是机器人智能范式的演化轨迹。

如果你把这些节点连起来，会发现一条清晰主线：从“能不能动” → “懂不懂世界” → “能不能泛化” → “能不能成为通用形态”

VLA，正在重塑人与物理世界的关系从 RT-1 到 Gemini Robotics， VLA 只用了 3 年时间，就让机器人完成了一次质变：从「专用工具」到「通用助手」再到「具身智能体」，未来受影响的，绝不只是机器人行业本身：

制造业：柔性生产、无人工厂
物流：全天候、泛场景操作
家庭服务：真正“能帮忙”的机器人
人机交互：从“点按钮”到“自然协作”

人类正在第一次，拥有能真正理解并作用于物理世界的“非人智能伙伴”。

科技迷们，这场具身智能革命，才刚刚开始。下一个惊喜，很可能比我们想象得更早到来。

4 次浏览

1 次