ROS2 在自动驾驶项目中应该怎么用

作者：智驾芯视野

40 次浏览

3 次

2026-6-17

编辑推荐:

本文主要介绍了ROS2 在自动驾驶项目中应该怎么用等相关内容。希望对你的学习有帮助。
本文来自于微信公众号智驾芯视野，由火龙果软件Alice编辑，推荐。

上个月在内蒙古一个露天矿待了一周。

不是去参观的那种待，是蹲在现场看车跑。矿卡从装载区到排土场，单程两公里多，重载下坡和空车上坡交替，路面上全是碎石和碾压出来的车辙。旁边还有洒水车、推土机、加油车在作业，你根本不知道下一分钟会不会有个推土机突然横穿过来。

这种环境里，坐在矿卡驾驶室看着方向盘自己转，跟你说内心毫无波澜那是假的。

但真正让我印象深刻的不是矿卡能自己跑，而是整个系统的工程切割方式。感知、定位、规划、控制、通信、数据闭环……每一层都有自己的边界，而这些边界恰好就是 ROS2 在工程上最能发挥价值的地方。

这篇文章不讲 ROS2 的基础概念，也不教你装 ROS2 Humble 或者写第一个节点。我想聊的是：当你的项目不是一个教学 Demo，而是每天要跑 20 小时、一年出勤 350 天的矿卡，ROS2 在每一个模块里到底应该怎么用，以及哪些地方你会踩坑。

ROS2 在自动驾驶里的角色，不是你想的那样

图 1：ROS2 三层架构与自动驾驶模块映射

很多人对 ROS2 的理解还停留在「机器人中间件」上。这个理解没错，但只理解到这一层不够。

自动驾驶系统说到底是分布式实时计算系统。车上有激光雷达、摄像头、毫米波雷达、IMU、GPS-RTK 多个传感器，每个传感器有自己的数据频率和处理链路。感知算法跑在 GPU 上，规划和控制跑在 CPU 上，它们之间需要低延迟、高可靠的数据通道。

ROS2 在这个体系里做的事情，拆开来看是三层。

第一层是通信层。ROS2 基于 DDS（Data Distribution Service）做节点间通信，支持 publish/subscribe、service/client、action 三种模式。DDS 本身是一个工业级的实时数据分发标准，提供了 QoS（Quality of Service）控制——你可以指定某个 topic 的可靠性是 RELIABLE 还是 BEST_EFFORT，持久性是 TRANSIENT_LOCAL 还是 VOLATILE，延迟 deadline 是多少。

对自动驾驶来说有什么实际影响？比方说激光雷达点云数据，丢了半帧不影响核心安全，你可以用 BEST_EFFORT，减少重传开销。但车辆控制指令，比如期望方向盘角度和油门开度，那必须是 RELIABLE，丢一个包都不行。QoS 策略的精细控制是 ROS2 相比 ROS1 最大的进步，也是为什么 Autoware.Auto 从 ROS1 迁到 ROS2 的核心原因。

第二层是计算调度层。ROS2 的 executor 支持单线程、多线程和静态调度，你可以把高优先级的控制节点放到一个 dedicated executor 上，避免被点云处理这种重计算拖慢。ROS2 还提供了 lifecycle node 的状态机管理——每个节点有 Unconfigured、Inactive、Active、Finalized 等状态，你可以精确控制系统启动和关闭的顺序。这个特性在功能安全场景下极其重要：你不会希望感知还没初始化完，规划就开始跑。

第三层是工具链层。ROS2 提供了 rosbag2 做数据录制和回放，rviz2 做可视化，ros2cli 做命令行调试。对于自动驾驶来说，数据闭环的起点就是 rosbag2——你在车上录下所有 topic 的原始数据，回到办公室回放、复现问题、训练模型，这套链路 ROS2 已经帮你搭好了基础。

但这里有一个非常重要的工程判断，很多人搞错了：ROS2 不应该渗透进你的核心算法内部。

核心算法和 ROS2 的边界在哪

我见过不少项目把感知模型推理、轨迹优化求解器直接写成 ROS2 node 的回调函数。这样做短期内确实跑得快，一个 node 搞定一切，demo 很好看。

但工程上这是自找麻烦。

你的点云检测模型说穿了就是一个纯函数，输入是 N 帧点云，输出是检测框列表。它不关心数据是通过 DDS 过来的、共享内存过来的还是从磁盘读的。如果你把模型推理跟 ROS2 的 subscription callback 绑死，你就没法单独对这个模型做单元测试、性能 profiling，也没法轻松换到不同的通信中间件上做对比测试。

工程上正确的做法是：核心算法做成独立的 C++ library（或者 Python package），输入输出是纯数据结构（struct、numpy array、protobuf 等），然后在外面包一层 thin ROS2 wrapper。wrapper 只做三件事——从 ROS2 topic 收数据、调算法库的核心函数、把结果发到下游 topic。

这样做的好处不仅仅是解耦。更重要的是，你的算法库可以在 ROS2、eCAL、CyberRT 甚至非 ROS 环境里复用。矿卡项目里，我们经常要把同一套规划控制算法在云端仿真环境（非 ROS）和车端实时环境（ROS2）里跑，如果算法跟 ROS2 绑定，你就得维护两套代码。

大厂的实际工程里，ROS2 只是中间件之一，算法核心是中间件无关的。这个架构思路值得每一个做自动驾驶工程的人记住。

感知：什么时候用 ROS2 topic，什么时候绕过它

图 2：矿卡传感器到执行器数据流与 ROS2 通信边界

矿卡上的传感器配置和乘用车不太一样。

乘用车一般有多个摄像头、多个毫米波、1-2 个激光雷达，传感器分布在车身四周。矿卡因为体积大、盲区大，通常会在前保险杠、两侧后视镜位置、后方各布一组传感器，总共有 4-6 个激光雷达、8-12 个摄像头、4-6 个毫米波。

这么多传感器同时发数据，topic 的带宽压力是真实存在的。

一个 128 线激光雷达，10Hz 频率，单帧点云大约 30 万点，每个点包含 x、y、z、intensity 四个 float32，算下来一帧点云大约 4.8MB，带宽约 384Mbps。如果有 4 个激光雷达同时跑，光点云数据就超过 1.5Gbps。

ROS2 的 DDS 通信在 localhost 上走的是 shared memory（具体看 RMW 实现，Fast-DDS 和 CycloneDDS 都支持），所以车内同一台工控机上节点间点云传输不会真正占网络带宽。但跨机器的场景就不一样了。

如果你把 GPU 工控机（跑感知）和 CPU 工控机（跑规划控制）分成两台设备，中间走以太网，那点云数据跨机器传输就必须压缩。这时候 ROS2 的 topic 就不一定是最优方案了——你可能需要一个专门的数据压缩和传输层，而不是直接用 ROS2 的原生 pub/sub。

工程上比较务实的选择是：

传感器驱动节点和感知算法前置处理（去畸变、时间同步、坐标变换）放在同一台 GPU 机器上，通过 ROS2 topic 在 localhost（shared memory）内通信。感知结果（检测框、可行驶区域、跟踪轨迹）是轻量级的结构化数据，再通过 ROS2 topic 跨机器发给下游。原始点云不跨机器传。

感知模块内部的深度学习推理，GPU 显存之间用 CUDA IPC 或者直接走 TensorRT 的 inference engine，ROS2 就别掺和了。ROS2 的 callback 只负责触发推理，不负责搬运数据。

NVIDIA 官方有一篇博客讲得不错：用 ROS2 封装 TAO-PointPillars 做点云 3D 检测。做法就是 ROS2 node 收到点云后调模型推理，推理结果转成 Detection3DArray 消息发给下游。这种「ROS2 负责调度、算法核心独立」的模式就是标准做法。

定位：ROS2 擅长的事情，和它不擅长的事情

矿卡定位和乘用车定位面临的核心挑战不一样。

乘用车的挑战是场景复杂——城市峡谷、高架桥下、隧道里 GPS 信号弱，需要靠视觉和激光匹配来补。矿卡的环境倒是开阔，GPS-RTK 信号很好，但路面会变——今天挖了一车碎石，路面高度掉了半米，昨天建的高精地图直接失效。

所以矿卡定位的核心技术路线是：RTK-GPS 做全局定位基准，激光里程计和 IMU 做短时推算，定期用实时点云和离线地图做匹配修正。三套机制互相校验。

ROS2 在这个定位架构里最合适的角色是数据汇集和算法调度，而不是替代定位算法本身。

具体来说：GPS driver node 发布 NavSatFix，IMU node 发布 Imu，激光雷达发布 PointCloud2，这三个 topic 的数据在时间和空间上对齐后，输入给定位融合算法。ROS2 的 message_filters 提供了时间同步的 ApproximateTime 和 ExactTime 策略，tf2 提供坐标变换管理——传感器之间的外参标定结果存到 tf2 的 static transform 里，定位结果也通过 tf2 发布 odom→base_link 和 map→odom 的变换。

SLAM 算法方面，ROS2 生态里有两个主流选择：slam_toolbox 适合在线建图和定位，Cartographer 适合离线建图和在线定位，两个都原生支持 ROS2。但矿卡场景有一个坑：矿区是动态变化的，你不可能每天重跑一遍 SLAM 建图。

实际做法是：在矿区运营初期用一个配备高精度 GPS+激光的标定车跑一遍 SLAM，生成一份基准地图存盘。日常运营时，矿卡的定位模块加载这份基准地图，用 NDT 或者 ICP 做 scan-to-map 的实时匹配，输出修正后的定位结果。slam_toolbox 的 lifelong mapping 模式支持地图增量更新，但增量更新的频率和时机需要根据矿区的变化速度来调，不能全自动。

有一个重要但容易被忽略的工程细节：定位频率。

矿卡重载下坡时速大概 25-30 km/h，150ms 的定位延迟就意味着车辆位置偏差约 1.2 米。如果你的规划控制周期是 50ms，那定位就必须小于 50ms。ROS2 的 topic 通信延迟在 localhost shared memory 下通常可以做到微秒级，但定位算法本身的计算延迟才是瓶颈——NDT 匹配 30 万点云到地图可能耗时 30-80ms。

这时候工程上常用的优化是：定位算法每 200ms 跑一次 scan-to-map 匹配做全局修正，中间的 4 个周期（50ms 一个）用 IMU+轮速的航位推测做插值输出。ROS2 的 tf2 提供 lookupTransform 接口，规划控制节点可以按任意时间戳查询定位结果，不用关心背后的插值逻辑。

规划和控制：ROS2 的 action 机制是最佳匹配

图 3：ROS2 Action 规划控制交互时序

规划和控制是自动驾驶里对实时性要求最高的两个模块，也是最能体现 ROS2 架构优势的部分。

ROS2 的 action 机制非常适合规划控制场景。一个典型的路径规划 action：上游行为决策 node 发送一个 NavigateToPose 的 action goal，规划 node 收到后开始计算全局路径和局部轨迹，计算过程中持续反馈规划进度（feedback），完成后返回最终轨迹（result）。这个过程中如果上游检测到障碍物需要取消或更新目标，可以用 cancel 或新的 goal 来抢占。

Action 比 service 的优势在于：service 是同步阻塞的，调用方等结果回来才能继续。Action 是异步的，计算过程中有 feedback，可以被抢占。自动驾驶的规划控制在绝大多数情况下都需要异步、可抢占的通信模式。

工程实现上，规划控制的核心算法同样是通信无关的。

轨迹规划——不管是基于采样的 RRT、基于优化的 MPC 还是基于搜索的 Hybrid A*——核心函数输入是起点、终点、障碍物列表、车辆运动学约束，输出是一条轨迹（位姿+速度+曲率+时间戳的序列）。这个函数里面没有 ROS2 的影子。

控制——不管是 PID、LQR 还是 MPC 跟踪控制器——输入是参考轨迹和当前状态，输出是方向盘、油门、刹车指令。同样跟 ROS2 解耦。

ROS2 的 wrapper 做的事情是：从 topic 收障碍物和定位结果，拼成算法库需要的输入格式，调核心函数，把输出轨迹点转成 ROS2 的 Path 消息发给控制 node。控制 node 拿到路径后跟踪执行，把实际方向盘角度和速度偏差通过 diagnostic topic 上报给系统监控。

还有一个工程上很关键但讨论不多的问题：控制指令的安全校验。

矿卡的线控执行机构（转向电机、驱动电机、制动系统）有自己的控制器，通过 CAN 总线接收指令。ROS2 控制 node 算出期望方向盘角度和油门开度后，通过 ros2_socketcan 或者自定义 CAN driver 下发指令。

但这里不能直接透传。你需要在控制 node 和 CAN driver 之间加一层安全校验：指令变化率超过物理限幅（比如方向盘不能在一帧内从 -30° 跳到 +30°）、指令值超出安全范围（比如下坡时油门不能大于某个阈值）、通信超时后的安全策略（比如连续 200ms 没收到新指令就触发紧急制动）。这些校验逻辑放在 ROS2 node 里做，校验通过后才写入 CAN。

数据闭环：ROS2 最大的工程价值可能在这

图 4：自动驾驶数据闭环 — rosbag2 录制与回放链路

很多人聊 ROS2 都在聊通信、调度、实时性，但我觉得 ROS2 最被低估的能力其实是 rosbag2 和相关的数据闭环支持。

自动驾驶是一个数据驱动的系统。感知模型需要数据训练，规划参数需要数据调优，控制策略需要数据验证。所有这些的前提是你能把车上的数据完整、准确、高效地录下来，然后能方便地回放和分析。

rosbag2 就是做这个的。相比 rosbag1，rosbag2 最大的改进是支持了存储后端的插件化——你可以存 SQLite3（默认），也可以换 MCAP 格式。MCAP 是一个专门为机器人数据设计的序列化容器，支持按 topic 和时间的随机访问、压缩、append-only 写入，比 SQLite3 更适合长时间高频率的录制场景。

矿卡每天运行 20 小时，如果全量录制所有 topic，一天的存储量大约是——

等一下，你可以不算得很精确，但大体上：4 个激光雷达 × 4.8MB/帧 × 10Hz × 20h ≈ 13TB，加上摄像头数据就更大。实际工程中全量录制不现实，需要选择性录制。

rosbag2 支持 topic 过滤和录制策略配置。工程上常见的做法是分两种模式：

日常运营模式：只录制关键 topic——定位结果、规划轨迹、控制指令、车辆状态、诊断信息。这些数据量很小，一天也就几十 GB，但足够做自动化的性能监控和异常检测。如果控制误差持续偏大或者规划失败次数增多，运维人员能第一时间发现。

问题复现模式：当出现异常工况（比如感知漏检、规划超时、控制震荡）时，触发一个事件录制——把异常发生前后 5 分钟的所有 topic 全量录下来，包括原始点云和图像。这就能支持离线的问题分析和算法迭代。

rosbag2 的回放能力同样重要。你可以在本地用 ros2 bag play 把录下来的数据按原始时间戳重放给算法节点，模拟车上的真实时序。这样你就能在办公室里复现矿区的具体场景，调整算法参数，重新跑一遍看效果。很多自动驾驶公司的「数据闭环」就建立在 rosbag2 录制→云端上传→离线回放→算法迭代→OTA 更新这条链路上。

有一个容易踩的坑：rosbag2 录制时的时间戳。

ROS2 默认使用系统时钟（system clock），但自动驾驶系统通常使用仿真时钟（simulation clock）或者传感器硬件时钟。如果录制和回放时的时钟源不一致，时间戳会错位，回放出来的时序就跟真实场景对不上。工程上应该在 rosbag2 录制配置里显式指定 `--use-sim-time` 或者自定义 `/clock` topic，确保录制和回放的时钟一致性。

矿卡特有的几个工程坑

前面讲的都是通用自动驾驶工程实践，但矿卡有一些特有的问题，ROS2 用得不对会直接导致系统不稳定。

第一个坑是震动。

矿区的路面条件比公路差得多，矿卡的振动频率和幅度都远超乘用车。ROS2 的 DDS discovery 机制在震动环境下有一定概率出现节点短暂掉线后重新发现的情况——这不是 DDS 的 bug，而是网络层面的瞬时抖动被震动放大了。如果你用了 Fast-DDS 的默认配置，discovery 超时和重试参数可能不够鲁棒。

解决办法不是换 RMW 实现，而是调整 discovery 相关的 QoS 参数——增大 lease duration、缩短 announcement period——让系统对短暂的通信中断更宽容。车载以太网的物理接口也要加固，矿卡上松一个网线接头是常有的事。

第二个坑是温度。

内蒙古露天矿夏天驾驶室温度能到 50°C 以上，工控机散热是个大问题。ROS2 节点在这种温度下，如果 executor 配置不当（比如用了默认的单线程 executor 导致 CPU 核心长期满载），容易触发温度保护降频，延迟毛刺就出来了。

工控机选型和 executor 配置要一起考虑。建议用多线程 executor 把不同优先级的节点分散到不同 CPU 核心上，留 1-2 个核心给系统进程和散热管理。ROS2 的 CPU affinity 配置可以显式绑定节点到指定核心。

第三个坑是远程操作。

矿卡虽然是无人驾驶，但不是完全不依赖人。异常工况下需要远程安全员接管。ROS2 的通信链路从车端延伸到远程操控台，中间可能经过 4G/5G 专网或者 WiFi 覆盖区。

远程接管对通信延迟的要求是 200ms 以内。ROS2 的 DDS 在局域网内可以做到微秒级延迟，但跨 4G/5G 就完全是另一回事。一个可行的方案是在远程操控台也部署一套 ROS2 系统，与车端做 topic bridge——车端选择性桥接关键 topic（车辆状态、前视摄像头压缩图像、诊断信息）到云端，远程操控指令（方向盘、油门、刹车）桥接回车端。

ros2_router 或者 Zenoh 桥接是 ROS2 生态里做这件事的两个主流方案。Zenoh 的 DDS bridge 可以在保持 ROS2 原生 API 不变的前提下，把通信协议从 DDS 换成更适合广域网的 Zenoh 协议，同时保留 QoS 语义。

回到那个矿

那天下午，矿卡在装载区自动对位，电铲把 60 吨矿石倒进车斗，整个过程不到三分钟。然后矿卡自己起步，沿着规划好的路线往排土场开。

坐在旁边的安全员跟我说了一句话：这套系统上了之后，他每天的工作从「开了八个小时车累得要死」变成了「盯着屏幕看八个小时参数」。

ROS2 在其中的位置，不是那个台前表演的主角，而是幕后把传感器数据、算法推理、控制指令、远程通信、数据回传这些环节串联起来的管道。一个自动驾驶系统能做到什么程度，很大程度上取决于这个管道的可靠性、实时性和可维护性。

ROS2 不是万能的，但在自动驾驶工程里，它确实是把那些「能用」和「能跑五年不出大问题」区分开的关键基础设施。

理解它的边界，知道什么时候用它，什么时候绕过它，比学会一百个 ROS2 命令更重要。

40 次浏览

3 次