基于注意力的分层深度强化学习在自动驾驶变道行为中的应用 -人工智能

咨询

基于注意力的分层深度强化学习在自动驾驶变道行为中的应用

5415 次浏览

31

2021-1-7

编辑推荐:

本文主要介绍了基于注意力的分层深度强化学习在自动驾驶变道行为中的应用，设计了一种分层的深度强化学习（DRL）算法来学习密集交通中的车道变化行为。
本文来自于搜狐，由火龙果软件Linda编辑、推荐。

摘要

执行安全高效的车道变更是创建全自动驾驶汽车的关键功能。最近的先进技术已经证明了使用深度强化学习的成功车道跟随行为，但很少考虑与其他车辆在道路上进行交互以改变车道的行为。本文设计了一种分层的深度强化学习（DRL）算法来学习密集交通中的车道变化行为。通过将整体行为分解为子策略，可以了解更快，更安全的车道变更动作。我们还将时空注意应用于DRL架构，这有助于车辆将更多的注意力集中在周围的车辆上，并导致更平滑的车道变换行为。我们在TORCS模拟器中进行实验，其结果在各种车道变更场景中均优于最新的深度强化学习算法。

贡献

1）提出一种分层的深度强化学习算法，该算法可以学习道路上的变道行为。我们的方法可以轻松扩展为在一个模型中学习多种驾驶策略。

2）开发一种注意力机制，适合通过图像学习驾驶策略。这有助于提高网络的结构性：通过更少的示例来学习更好的性能。

3）与最新的深度强化学习算法相比，讨论和分析车道变更场景下的性能。

图1 算法说明。

图1的结果表明，算法基于与演员和评论家的深度强化学习。参与者网络用于策略学习，评论家网络用于策略评估。提出了分层动作和注意力机制来产生车道变更行为。我们使用TORCS仿真环境。

图2 车道变更行为的分层操作空间的图示。

图3 用于深度强化学习的Actor-Critic体系结构。左侧是推理（正向传递）过程中的数据流，右侧是训练（反向传播）过程中的梯度流。

图4 注意深度循环确定性策略梯度算法中的参与者网络体系结构。我们考虑两种注意力：时间注意力和空间注意力。时间注意力学会加权前一帧的重要性，而空间注意力学会图像中不同位置的重要性。

图5 用于训练的五个轨道的一个示例。从左至右：示例轨迹Street-1的地图，开始新剧集时的图像俯视图，训练过程中前视摄像头的屏幕截图。

图6 最终的DRDPG模型具有分层动作，时空注意在TORCS游戏中的不同试验中进行了测试。我们通过运行100集获得每个地图的结果。

图7 通过引入从左到右的分层动作（Hier），递归（Rec），空间注意力（Spat）和时间注意力（Temp）获得的相对于基准（DDPG）的性能改进的比较。最终的组合模型（Comb）适用于以上所有条件。绩效评估基于平均速度，车道变更次数，一集总奖励和成功集的百分比。

图8 用来说明时间注意的转折情景。在这种情况下，已学会进行右转车道以实现更高效的右转。每个图像左上角的数字是分配给该图像帧以引起时间关注的权重（权重越高，重要性越高）。

图9 用来说明空间注意力的超车场景。空间注意力可以学习输入图像上的遮罩。较亮的颜色表示分配给该区域的权重较高。权重使用高斯核进行平滑化以进行可视化。

5415 次浏览

31

相关文章

基于图卷积网络的图深度学习

自动驾驶中的3D目标检测

工业机器人控制系统架构介绍

项目实战：如何构建知识图谱

相关文档

5G人工智能物联网的典型应用

深度学习在自动驾驶中的应用

图神经网络在交叉学科领域的应用研究

无人机系统原理

相关课程

人工智能、机器学习&TensorFlow

机器人软件开发技术

人工智能，机器学习和深度学习

图像处理算法方法与实践

最新活动计划

DeepSeek大模型应用开发 6-12[厦门]

人工智能.机器学习TensorFlow 6-22[直播]

基于 UML 和EA进行分析设计 6-30[北京]

嵌入式软件架构-高级实践 7-9[北京]

用户体验、易用性测试与评估 7-25[西安]

图数据库与知识图谱 8-23[北京]

最新文章

多目标跟踪：AI产品经理需要了解的CV通识

深度学习架构

卷积神经网络之前向传播算法

从0到1搭建AI中台

工业机器人控制系统架构介绍

最新课程

人工智能，机器学习和深度学习

人工智能与机器学习应用实战

人工智能-图像处理和识别

人工智能、机器学习& TensorFlow+Keras框架实践

人工智能+Python＋大数据

成功案例

某综合性科研机构人工智能与机器学习应用

某银行人工智能+Python+大数据

北京人工智能、机器学习& TensorFlow框架实践

某领先数字地图提供商 Python数据分析与机器学习

中国移动人工智能、机器学习和深度学习