编辑推荐: |
本文主要介绍了基于注意力的分层深度强化学习在自动驾驶变道行为中的应用,设计了一种分层的深度强化学习(DRL)算法来学习密集交通中的车道变化行为。
本文来自于搜狐,由火龙果软件Linda编辑、推荐。 |
|
摘要
执行安全高效的车道变更是创建全自动驾驶汽车的关键功能。最近的先进技术已经证明了使用深度强化学习的成功车道跟随行为,但很少考虑与其他车辆在道路上进行交互以改变车道的行为。本文设计了一种分层的深度强化学习(DRL)算法来学习密集交通中的车道变化行为。通过将整体行为分解为子策略,可以了解更快,更安全的车道变更动作。我们还将时空注意应用于DRL架构,这有助于车辆将更多的注意力集中在周围的车辆上,并导致更平滑的车道变换行为。我们在TORCS模拟器中进行实验,其结果在各种车道变更场景中均优于最新的深度强化学习算法。
贡献
1)提出一种分层的深度强化学习算法,该算法可以学习道路上的变道行为。我们的方法可以轻松扩展为在一个模型中学习多种驾驶策略。
2)开发一种注意力机制,适合通过图像学习驾驶策略。这有助于提高网络的结构性:通过更少的示例来学习更好的性能。
3)与最新的深度强化学习算法相比,讨论和分析车道变更场景下的性能。
图1 算法说明。
图1的结果表明,算法基于与演员和评论家的深度强化学习。参与者网络用于策略学习,评论家网络用于策略评估。提出了分层动作和注意力机制来产生车道变更行为。我们使用TORCS仿真环境。
图2 车道变更行为的分层操作空间的图示。
图3 用于深度强化学习的Actor-Critic体系结构。左侧是推理(正向传递)过程中的数据流,右侧是训练(反向传播)过程中的梯度流。
图4 注意深度循环确定性策略梯度算法中的参与者网络体系结构。我们考虑两种注意力:时间注意力和空间注意力。时间注意力学会加权前一帧的重要性,而空间注意力学会图像中不同位置的重要性。
图5 用于训练的五个轨道的一个示例。从左至右:示例轨迹Street-1的地图,开始新剧集时的图像俯视图,训练过程中前视摄像头的屏幕截图。
图6 最终的DRDPG模型具有分层动作,时空注意在TORCS游戏中的不同试验中进行了测试。我们通过运行100集获得每个地图的结果。
图7 通过引入从左到右的分层动作(Hier),递归(Rec),空间注意力(Spat)和时间注意力(Temp)获得的相对于基准(DDPG)的性能改进的比较。
最终的组合模型(Comb)适用于以上所有条件。 绩效评估基于平均速度,车道变更次数,一集总奖励和成功集的百分比。
图8 用来说明时间注意的转折情景。在这种情况下,已学会进行右转车道以实现更高效的右转。每个图像左上角的数字是分配给该图像帧以引起时间关注的权重(权重越高,重要性越高)。
图9 用来说明空间注意力的超车场景。空间注意力可以学习输入图像上的遮罩。较亮的颜色表示分配给该区域的权重较高。权重使用高斯核进行平滑化以进行可视化。 |