您可以捐助,支持我们的公益事业。

1元 10元 50元





认证码:  验证码,看不清楚?请点击刷新验证码 必填



  求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Model Center 汽车系统工程   模型库  
会员   
   
基于SysML和EA进行系统设计与建模
7月16-17日 深圳+线上
UAF架构体系与实践
7月23-24日 北京+线上
Spec Driven Development 工程化实践
7月28-29日 北京+线上
     
   
 订阅
ROS2 在自动驾驶项目中应该怎么用
 
作者:智驾芯视野
 
  40   次浏览      3 次
 2026-6-17
 
编辑推荐:
本文主要介绍了ROS2 在自动驾驶项目中应该怎么用等相关内容。希望对你的学习有帮助。
本文来自于微信公众号智驾芯视野,由火龙果软件Alice编辑,推荐。

上个月在内蒙古一个露天矿待了一周。

不是去参观的那种待,是蹲在现场看车跑。矿卡从装载区到排土场,单程两公里多,重载下坡和空车上坡交替,路面上全是碎石和碾压出来的车辙。旁边还有洒水车、推土机、加油车在作业,你根本不知道下一分钟会不会有个推土机突然横穿过来。

这种环境里,坐在矿卡驾驶室看着方向盘自己转,跟你说内心毫无波澜那是假的。

但真正让我印象深刻的不是矿卡能自己跑,而是整个系统的工程切割方式。感知、定位、规划、控制、通信、数据闭环……每一层都有自己的边界,而这些边界恰好就是 ROS2 在工程上最能发挥价值的地方。

这篇文章不讲 ROS2 的基础概念,也不教你装 ROS2 Humble 或者写第一个节点。我想聊的是:当你的项目不是一个教学 Demo,而是每天要跑 20 小时、一年出勤 350 天的矿卡,ROS2 在每一个模块里到底应该怎么用,以及哪些地方你会踩坑。

ROS2 在自动驾驶里的角色,不是你想的那样

图 1:ROS2 三层架构与自动驾驶模块映射

很多人对 ROS2 的理解还停留在「机器人中间件」上。这个理解没错,但只理解到这一层不够。

自动驾驶系统说到底是分布式实时计算系统。车上有激光雷达、摄像头、毫米波雷达、IMU、GPS-RTK 多个传感器,每个传感器有自己的数据频率和处理链路。感知算法跑在 GPU 上,规划和控制跑在 CPU 上,它们之间需要低延迟、高可靠的数据通道。

ROS2 在这个体系里做的事情,拆开来看是三层。

第一层是通信层。ROS2 基于 DDS(Data Distribution Service)做节点间通信,支持 publish/subscribe、service/client、action 三种模式。DDS 本身是一个工业级的实时数据分发标准,提供了 QoS(Quality of Service)控制——你可以指定某个 topic 的可靠性是 RELIABLE 还是 BEST_EFFORT,持久性是 TRANSIENT_LOCAL 还是 VOLATILE,延迟 deadline 是多少。

对自动驾驶来说有什么实际影响?比方说激光雷达点云数据,丢了半帧不影响核心安全,你可以用 BEST_EFFORT,减少重传开销。但车辆控制指令,比如期望方向盘角度和油门开度,那必须是 RELIABLE,丢一个包都不行。QoS 策略的精细控制是 ROS2 相比 ROS1 最大的进步,也是为什么 Autoware.Auto 从 ROS1 迁到 ROS2 的核心原因。

第二层是计算调度层。ROS2 的 executor 支持单线程、多线程和静态调度,你可以把高优先级的控制节点放到一个 dedicated executor 上,避免被点云处理这种重计算拖慢。ROS2 还提供了 lifecycle node 的状态机管理——每个节点有 Unconfigured、Inactive、Active、Finalized 等状态,你可以精确控制系统启动和关闭的顺序。这个特性在功能安全场景下极其重要:你不会希望感知还没初始化完,规划就开始跑。

第三层是工具链层。ROS2 提供了 rosbag2 做数据录制和回放,rviz2 做可视化,ros2cli 做命令行调试。对于自动驾驶来说,数据闭环的起点就是 rosbag2——你在车上录下所有 topic 的原始数据,回到办公室回放、复现问题、训练模型,这套链路 ROS2 已经帮你搭好了基础。

但这里有一个非常重要的工程判断,很多人搞错了:ROS2 不应该渗透进你的核心算法内部。

核心算法和 ROS2 的边界在哪

我见过不少项目把感知模型推理、轨迹优化求解器直接写成 ROS2 node 的回调函数。这样做短期内确实跑得快,一个 node 搞定一切,demo 很好看。

但工程上这是自找麻烦。

你的点云检测模型说穿了就是一个纯函数,输入是 N 帧点云,输出是检测框列表。它不关心数据是通过 DDS 过来的、共享内存过来的还是从磁盘读的。如果你把模型推理跟 ROS2 的 subscription callback 绑死,你就没法单独对这个模型做单元测试、性能 profiling,也没法轻松换到不同的通信中间件上做对比测试。

工程上正确的做法是:核心算法做成独立的 C++ library(或者 Python package),输入输出是纯数据结构(struct、numpy array、protobuf 等),然后在外面包一层 thin ROS2 wrapper。wrapper 只做三件事——从 ROS2 topic 收数据、调算法库的核心函数、把结果发到下游 topic。

这样做的好处不仅仅是解耦。更重要的是,你的算法库可以在 ROS2、eCAL、CyberRT 甚至非 ROS 环境里复用。矿卡项目里,我们经常要把同一套规划控制算法在云端仿真环境(非 ROS)和车端实时环境(ROS2)里跑,如果算法跟 ROS2 绑定,你就得维护两套代码。

大厂的实际工程里,ROS2 只是中间件之一,算法核心是中间件无关的。这个架构思路值得每一个做自动驾驶工程的人记住。

感知:什么时候用 ROS2 topic,什么时候绕过它

图 2:矿卡传感器到执行器数据流与 ROS2 通信边界

矿卡上的传感器配置和乘用车不太一样。

乘用车一般有多个摄像头、多个毫米波、1-2 个激光雷达,传感器分布在车身四周。矿卡因为体积大、盲区大,通常会在前保险杠、两侧后视镜位置、后方各布一组传感器,总共有 4-6 个激光雷达、8-12 个摄像头、4-6 个毫米波。

这么多传感器同时发数据,topic 的带宽压力是真实存在的。

一个 128 线激光雷达,10Hz 频率,单帧点云大约 30 万点,每个点包含 x、y、z、intensity 四个 float32,算下来一帧点云大约 4.8MB,带宽约 384Mbps。如果有 4 个激光雷达同时跑,光点云数据就超过 1.5Gbps。

ROS2 的 DDS 通信在 localhost 上走的是 shared memory(具体看 RMW 实现,Fast-DDS 和 CycloneDDS 都支持),所以车内同一台工控机上节点间点云传输不会真正占网络带宽。但跨机器的场景就不一样了。

如果你把 GPU 工控机(跑感知)和 CPU 工控机(跑规划控制)分成两台设备,中间走以太网,那点云数据跨机器传输就必须压缩。这时候 ROS2 的 topic 就不一定是最优方案了——你可能需要一个专门的数据压缩和传输层,而不是直接用 ROS2 的原生 pub/sub。

工程上比较务实的选择是:

传感器驱动节点和感知算法前置处理(去畸变、时间同步、坐标变换)放在同一台 GPU 机器上,通过 ROS2 topic 在 localhost(shared memory)内通信。感知结果(检测框、可行驶区域、跟踪轨迹)是轻量级的结构化数据,再通过 ROS2 topic 跨机器发给下游。原始点云不跨机器传。

感知模块内部的深度学习推理,GPU 显存之间用 CUDA IPC 或者直接走 TensorRT 的 inference engine,ROS2 就别掺和了。ROS2 的 callback 只负责触发推理,不负责搬运数据。

NVIDIA 官方有一篇博客讲得不错:用 ROS2 封装 TAO-PointPillars 做点云 3D 检测。做法就是 ROS2 node 收到点云后调模型推理,推理结果转成 Detection3DArray 消息发给下游。这种「ROS2 负责调度、算法核心独立」的模式就是标准做法。

定位:ROS2 擅长的事情,和它不擅长的事情

矿卡定位和乘用车定位面临的核心挑战不一样。

乘用车的挑战是场景复杂——城市峡谷、高架桥下、隧道里 GPS 信号弱,需要靠视觉和激光匹配来补。矿卡的环境倒是开阔,GPS-RTK 信号很好,但路面会变——今天挖了一车碎石,路面高度掉了半米,昨天建的高精地图直接失效。

所以矿卡定位的核心技术路线是:RTK-GPS 做全局定位基准,激光里程计和 IMU 做短时推算,定期用实时点云和离线地图做匹配修正。三套机制互相校验。

ROS2 在这个定位架构里最合适的角色是数据汇集和算法调度,而不是替代定位算法本身。

具体来说:GPS driver node 发布 NavSatFix,IMU node 发布 Imu,激光雷达发布 PointCloud2,这三个 topic 的数据在时间和空间上对齐后,输入给定位融合算法。ROS2 的 message_filters 提供了时间同步的 ApproximateTime 和 ExactTime 策略,tf2 提供坐标变换管理——传感器之间的外参标定结果存到 tf2 的 static transform 里,定位结果也通过 tf2 发布 odom→base_link 和 map→odom 的变换。

SLAM 算法方面,ROS2 生态里有两个主流选择:slam_toolbox 适合在线建图和定位,Cartographer 适合离线建图和在线定位,两个都原生支持 ROS2。但矿卡场景有一个坑:矿区是动态变化的,你不可能每天重跑一遍 SLAM 建图。

实际做法是:在矿区运营初期用一个配备高精度 GPS+激光的标定车跑一遍 SLAM,生成一份基准地图存盘。日常运营时,矿卡的定位模块加载这份基准地图,用 NDT 或者 ICP 做 scan-to-map 的实时匹配,输出修正后的定位结果。slam_toolbox 的 lifelong mapping 模式支持地图增量更新,但增量更新的频率和时机需要根据矿区的变化速度来调,不能全自动。

有一个重要但容易被忽略的工程细节:定位频率。

矿卡重载下坡时速大概 25-30 km/h,150ms 的定位延迟就意味着车辆位置偏差约 1.2 米。如果你的规划控制周期是 50ms,那定位就必须小于 50ms。ROS2 的 topic 通信延迟在 localhost shared memory 下通常可以做到微秒级,但定位算法本身的计算延迟才是瓶颈——NDT 匹配 30 万点云到地图可能耗时 30-80ms。

这时候工程上常用的优化是:定位算法每 200ms 跑一次 scan-to-map 匹配做全局修正,中间的 4 个周期(50ms 一个)用 IMU+轮速的航位推测做插值输出。ROS2 的 tf2 提供 lookupTransform 接口,规划控制节点可以按任意时间戳查询定位结果,不用关心背后的插值逻辑。

规划和控制:ROS2 的 action 机制是最佳匹配

图 3:ROS2 Action 规划控制交互时序

规划和控制是自动驾驶里对实时性要求最高的两个模块,也是最能体现 ROS2 架构优势的部分。

ROS2 的 action 机制非常适合规划控制场景。一个典型的路径规划 action:上游行为决策 node 发送一个 NavigateToPose 的 action goal,规划 node 收到后开始计算全局路径和局部轨迹,计算过程中持续反馈规划进度(feedback),完成后返回最终轨迹(result)。这个过程中如果上游检测到障碍物需要取消或更新目标,可以用 cancel 或新的 goal 来抢占。

Action 比 service 的优势在于:service 是同步阻塞的,调用方等结果回来才能继续。Action 是异步的,计算过程中有 feedback,可以被抢占。自动驾驶的规划控制在绝大多数情况下都需要异步、可抢占的通信模式。

工程实现上,规划控制的核心算法同样是通信无关的。

轨迹规划——不管是基于采样的 RRT、基于优化的 MPC 还是基于搜索的 Hybrid A*——核心函数输入是起点、终点、障碍物列表、车辆运动学约束,输出是一条轨迹(位姿+速度+曲率+时间戳的序列)。这个函数里面没有 ROS2 的影子。

控制——不管是 PID、LQR 还是 MPC 跟踪控制器——输入是参考轨迹和当前状态,输出是方向盘、油门、刹车指令。同样跟 ROS2 解耦。

ROS2 的 wrapper 做的事情是:从 topic 收障碍物和定位结果,拼成算法库需要的输入格式,调核心函数,把输出轨迹点转成 ROS2 的 Path 消息发给控制 node。控制 node 拿到路径后跟踪执行,把实际方向盘角度和速度偏差通过 diagnostic topic 上报给系统监控。

还有一个工程上很关键但讨论不多的问题:控制指令的安全校验。

矿卡的线控执行机构(转向电机、驱动电机、制动系统)有自己的控制器,通过 CAN 总线接收指令。ROS2 控制 node 算出期望方向盘角度和油门开度后,通过 ros2_socketcan 或者自定义 CAN driver 下发指令。

但这里不能直接透传。你需要在控制 node 和 CAN driver 之间加一层安全校验:指令变化率超过物理限幅(比如方向盘不能在一帧内从 -30° 跳到 +30°)、指令值超出安全范围(比如下坡时油门不能大于某个阈值)、通信超时后的安全策略(比如连续 200ms 没收到新指令就触发紧急制动)。这些校验逻辑放在 ROS2 node 里做,校验通过后才写入 CAN。

数据闭环:ROS2 最大的工程价值可能在这

图 4:自动驾驶数据闭环 — rosbag2 录制与回放链路

很多人聊 ROS2 都在聊通信、调度、实时性,但我觉得 ROS2 最被低估的能力其实是 rosbag2 和相关的数据闭环支持。

自动驾驶是一个数据驱动的系统。感知模型需要数据训练,规划参数需要数据调优,控制策略需要数据验证。所有这些的前提是你能把车上的数据完整、准确、高效地录下来,然后能方便地回放和分析。

rosbag2 就是做这个的。相比 rosbag1,rosbag2 最大的改进是支持了存储后端的插件化——你可以存 SQLite3(默认),也可以换 MCAP 格式。MCAP 是一个专门为机器人数据设计的序列化容器,支持按 topic 和时间的随机访问、压缩、append-only 写入,比 SQLite3 更适合长时间高频率的录制场景。

矿卡每天运行 20 小时,如果全量录制所有 topic,一天的存储量大约是——

等一下,你可以不算得很精确,但大体上:4 个激光雷达 × 4.8MB/帧 × 10Hz × 20h ≈ 13TB,加上摄像头数据就更大。实际工程中全量录制不现实,需要选择性录制。

rosbag2 支持 topic 过滤和录制策略配置。工程上常见的做法是分两种模式:

日常运营模式:只录制关键 topic——定位结果、规划轨迹、控制指令、车辆状态、诊断信息。这些数据量很小,一天也就几十 GB,但足够做自动化的性能监控和异常检测。如果控制误差持续偏大或者规划失败次数增多,运维人员能第一时间发现。

问题复现模式:当出现异常工况(比如感知漏检、规划超时、控制震荡)时,触发一个事件录制——把异常发生前后 5 分钟的所有 topic 全量录下来,包括原始点云和图像。这就能支持离线的问题分析和算法迭代。

rosbag2 的回放能力同样重要。你可以在本地用 ros2 bag play 把录下来的数据按原始时间戳重放给算法节点,模拟车上的真实时序。这样你就能在办公室里复现矿区的具体场景,调整算法参数,重新跑一遍看效果。很多自动驾驶公司的「数据闭环」就建立在 rosbag2 录制→云端上传→离线回放→算法迭代→OTA 更新这条链路上。

有一个容易踩的坑:rosbag2 录制时的时间戳。

ROS2 默认使用系统时钟(system clock),但自动驾驶系统通常使用仿真时钟(simulation clock)或者传感器硬件时钟。如果录制和回放时的时钟源不一致,时间戳会错位,回放出来的时序就跟真实场景对不上。工程上应该在 rosbag2 录制配置里显式指定 `--use-sim-time` 或者自定义 `/clock` topic,确保录制和回放的时钟一致性。

矿卡特有的几个工程坑

前面讲的都是通用自动驾驶工程实践,但矿卡有一些特有的问题,ROS2 用得不对会直接导致系统不稳定。

第一个坑是震动。

矿区的路面条件比公路差得多,矿卡的振动频率和幅度都远超乘用车。ROS2 的 DDS discovery 机制在震动环境下有一定概率出现节点短暂掉线后重新发现的情况——这不是 DDS 的 bug,而是网络层面的瞬时抖动被震动放大了。如果你用了 Fast-DDS 的默认配置,discovery 超时和重试参数可能不够鲁棒。

解决办法不是换 RMW 实现,而是调整 discovery 相关的 QoS 参数——增大 lease duration、缩短 announcement period——让系统对短暂的通信中断更宽容。车载以太网的物理接口也要加固,矿卡上松一个网线接头是常有的事。

第二个坑是温度。

内蒙古露天矿夏天驾驶室温度能到 50°C 以上,工控机散热是个大问题。ROS2 节点在这种温度下,如果 executor 配置不当(比如用了默认的单线程 executor 导致 CPU 核心长期满载),容易触发温度保护降频,延迟毛刺就出来了。

工控机选型和 executor 配置要一起考虑。建议用多线程 executor 把不同优先级的节点分散到不同 CPU 核心上,留 1-2 个核心给系统进程和散热管理。ROS2 的 CPU affinity 配置可以显式绑定节点到指定核心。

第三个坑是远程操作。

矿卡虽然是无人驾驶,但不是完全不依赖人。异常工况下需要远程安全员接管。ROS2 的通信链路从车端延伸到远程操控台,中间可能经过 4G/5G 专网或者 WiFi 覆盖区。

远程接管对通信延迟的要求是 200ms 以内。ROS2 的 DDS 在局域网内可以做到微秒级延迟,但跨 4G/5G 就完全是另一回事。一个可行的方案是在远程操控台也部署一套 ROS2 系统,与车端做 topic bridge——车端选择性桥接关键 topic(车辆状态、前视摄像头压缩图像、诊断信息)到云端,远程操控指令(方向盘、油门、刹车)桥接回车端。

ros2_router 或者 Zenoh 桥接是 ROS2 生态里做这件事的两个主流方案。Zenoh 的 DDS bridge 可以在保持 ROS2 原生 API 不变的前提下,把通信协议从 DDS 换成更适合广域网的 Zenoh 协议,同时保留 QoS 语义。

回到那个矿

那天下午,矿卡在装载区自动对位,电铲把 60 吨矿石倒进车斗,整个过程不到三分钟。然后矿卡自己起步,沿着规划好的路线往排土场开。

坐在旁边的安全员跟我说了一句话:这套系统上了之后,他每天的工作从「开了八个小时车累得要死」变成了「盯着屏幕看八个小时参数」。

ROS2 在其中的位置,不是那个台前表演的主角,而是幕后把传感器数据、算法推理、控制指令、远程通信、数据回传这些环节串联起来的管道。一个自动驾驶系统能做到什么程度,很大程度上取决于这个管道的可靠性、实时性和可维护性。

ROS2 不是万能的,但在自动驾驶工程里,它确实是把那些「能用」和「能跑五年不出大问题」区分开的关键基础设施。

理解它的边界,知道什么时候用它,什么时候绕过它,比学会一百个 ROS2 命令更重要。

 

   
40   次浏览       3 次
相关文章

中央计算的软件定义汽车架构设计
汽车电子控制系统中的软件开发过程
一文读懂汽车芯片-有线通信芯片
OTA在汽车上有哪些难点痛点?
相关文档

汽车设计-汽车的整体结构及动力系统
自动驾驶汽车软件计算框架
SysML在汽车领域的应用实践
电子电气架构-大陆汽车系统架构平台
相关课程

AutoSAR原理与实践
功能安全管理体系(基于ISO26262)
MBSE(基于模型的系统工程)
基于SOA的汽车电子架构设计与开发

最新活动计划
UAF架构体系与实践 7-23[北京]
SysML和EA系统设计与建模 7-16[深圳]
Spec 驱动开发(SDD)实战 7-28[北京]
AI辅助软件测试方法与实践 7-31[在线]
AI智能体开发技术实践 8-6[上海]
基于UML和EA系统分析设计 8-20[上海]
 
 
最新文章
ASPICE中配置管理是个什么东西?
了解软件安全分析与组件鉴定
掌握Autosar ComStack的精髓!
基于整车功能的正向诊断需求开发
搞定Autosar SWC开发秘籍,码住!
汽车OTA更新的系统性威胁评估
最新课程
基于SOA的汽车电子架构设计与开发
Auto SAR原理与实践
AUTOSAR架构与实践(从CP到 AP )
AUTOSAR架构建模方法与工具(EA)
ASPICE4.0核心开发过程指南
MBSE(基于模型的系统工程)
更多...   
成功案例
某知名车企 AUTOSAR应用设计与开发
吉利汽车 MBSE工程体系汽车建模及评估
某整车企业 《功能需求分析与设计》
富奥汽车零部件 建模工具EA
零跑汽车 建模工具EA及服务
北汽福田 建模工具EA
小鹏汽车 建模工具EA
更多...