编辑推荐: |
本文主要介绍了自动驾驶架构进化史:端到端自动驾驶演变的相关内容。希望对你的学习有帮助。
本文来自于微信公众号焉知汽车,由火龙果软件Linda编辑,推荐。 |
|
前言:2023年以来,在行业龙头特斯拉的标杆作用、大模型代表的AGI技术范式、以及自动驾驶拟人化和安全性需求的共同推动下,自动驾驶行业对于端到端的关注度一路升温。产业界、学术界和资本市场在端到端自动驾驶领域都有里程碑事件发生。
端到端自动驾驶已经成为明确的行业共识。
1、传统自动驾驶架构
传统的自动驾驶架构多衍生于机器人架构,因此,在机器人领域的感知-定位-规划三大模块及其功能衍生,在很长时间内一直是自动驾驶架构发展的基调。典型的自动驾驶系统通常包含以下几个核心模块:
感知模块(Perception)
感知模块负责收集和解释车辆周围环境的信息。这包括使用各种传感器,如摄像头、激光雷达(LiDAR)、雷达和超声波传感器来检测和识别周围的物体,例如其他车辆、行人、交通信号和道路标志。感知模块需要处理来自这些传感器的数据,并将其转化为车辆可以理解的环境模型。传统的感知模块的输出更多是基于人类的定义,例如对于周边障碍物的检测,对于边界以及区域的分割等。传统的感知系统要保证其输出能够为人所理解,代表了人类对于环境的一种抽象。
定位模块(Localization)
定位模块的任务是确定车辆在环境中的精确位置。这通常涉及到使用全球定位系统(GPS)、惯性测量单元(IMU)和传感器数据来估计车辆的全局位置。此外,还可以使用基于地图的定位技术,如将车辆的传感器数据与预先制作的详细地图进行匹配。
预测模块(Prediction)
预测模块用于预测其他道路使用者的行为和意图,例如预测其他车辆的行驶轨迹和行人的移动。这有助于自动驾驶系统提前做出决策,以避免潜在的碰撞和冲突。
决策与规划模块(Decision and Planning)
决策模块负责根据感知和预测的信息来制定车辆的行驶策略。这包括选择最佳的行驶路径、决定何时变道或超车,以及如何应对复杂的交通情况。规划模块则负责生成详细的行驶轨迹,确保车辆能够安全、高效地从当前位置行驶到目的地。
控制模块(Control)
控制模块是执行决策规划模块输出的实际车辆控制命令的系统。它负责精确控制车辆的油门、刹车和转向,以实现平滑和安全的驾驶。
传统方案在模块上的划分使得每个模块的独立开发更加容易,在进行问题追溯时也更加简单快速。然而,这种方案的代价是限制了模块及整个系统所能达到的灵活性和泛化性的上限。
2、端到端自动驾驶架构的演变
目前,自动驾驶架构的演进可以分为四个主要阶段:
第一阶段:感知“端到端”
这一阶段,整个自动驾驶架构被拆分成了感知和预测决策规划两个主要模块,其中,感知模块已经通过基于多传感器融合的BEV(Bird
Eye View,鸟瞰图视角融合)技术实现了模块级别的“端到端”。通过引入transformer以及跨传感器的cross
attention方案,感知输出检测结果的精度及稳定性相对之前的感知方案都有比较大的提升,不过,规划决策模块仍然以Rule-based为主。
第二阶段:决策规划模型化
这个阶段,整个自动驾驶架构仍然分为感知和预测决策规划两个主要模块,其中,感知端仍保持上一代的解决方案,但预测决策规划模块的变动比较大——从预测到决策到规划的功能模块已经被集成到同一个神经网络当中。值得注意的是,虽然感知和预测规划决策都是通过深度学习实现,但是这两个主要模块之间的接口仍然基于人类的理解定义(如障碍物位置,道路边界等);另外,在这一阶段,各模块仍然会进行独立训练。
第三阶段:模块化端到端
从结构上来讲,这一阶段的结构和上一阶段比较类似,但是在网络结构的细节及训练方案上有很大不同。首先,感知模块不再输出基于人类理解定义的结果,而更多给出的是特征向量。相应地,预测决策规划模块的综合模型基于特征向量输出运动规划的结果。除了两个模块之间的输出从基于人类可理解的抽象输出变为特征向量,在训练方式上,这个阶段的模型必须支持跨模块的梯度传导——两个模块均无法独立进行训练,训练必须通过梯度传导的方式同时进行。
第四阶段:One Model/单一模型端到端
在这一阶段,就不再有感知、决策规划等功能的确划分。从原始信号输入到最终规划轨迹的输出直接采用同一个深度学习模型。基于实现方案的不同,这一阶段的
One Model 可以是基于强化学习(Reinforcement Learning, RL)或模仿学习(Imitation
Learning, IL)的端到端模型,也可以通过世界模型这类生成式模型衍生而来。
模块化端到端自动驾驶
第二阶段的决策规划模块化相较于Rule-based方案,显著增强了系统处理复杂场景的能力,通过基于模型的方法充分利用数据并简化了模型升级过程。然而,模块化设计要求接口标准化,这可能造成信息损失,尤其是与人类认知的不一致可能导致性能降低。模块间的明显界限也限制了系统的鲁棒性和泛化能力,特别是在未知或极端环境下,模块接合点易成弱点。
One Model端到端自动驾驶
虽然OneModel属于第四阶段的方案,但是这个概念被提出的时间比模块化端到端更早。在自动驾驶产业刚刚开始起步的2016年,英伟达就提出采用单个神经网络(卷积+全连的简单架构)来实现端到端的自动驾驶,输入和输出就是最原始的传感器信号、方向盘角度及油门开度。
3、端到端相关概念的联系与区别
端到端与决策规划模型化
行业里一种常见的误解是“通过模型而非规则实现决策规划模块即为端到端方案”,即将上面提到的第二阶段也归类为端到端。根据我们之前的分析,决策规划模型化应该被理解为端到端的必要而非充分条件。
规划模型化应该被理解为端到端的必要而非充分条件,做出这种判断的根据是,第二阶段的决策规划模型化与第三阶段的模块化端到端在以下两点上体现出明显区别:1)它与感知模块的接口是通过人为定义的自标而非底层特征,导致方案不支持梯度跨模块传导;2)各模块的训练及优化只局限在局部而无法扩展到全局。
端到端与大模型
端到端与大模型虽常关联,实则各有侧重。大模型以庞大参数量和多功能性为特点,适用于自动驾驶、语言处理、图像识别等广泛任务,偏好非结构化大数据,对可解释性要求不高。端到端则聚焦于构建直接从输入到输出的优化路径,特别针对自动驾驶的安全导航与决策,依赖精准标注数据,强调系统可靠性。
自动驾驶中的“大模型”不同于NLP或通用AI领域,受限于车载计算能力和实时性需求,规模通常远小于后者,即便如此,在车载环境内仍被视为“大”。例如,当前顶尖车载处理器提供数百TOPS算力,不足以支撑数十亿参数量级的大模型,故自动驾驶领域的大模型参数量通常控制在十亿以下,相对传统小模型而言已显著增大。
端到端与世界模型
世界模型的概念是指能够学习及揭示真实世界物理及数学定律的模型,例如能够学习并理解重力、力的相互作用等常见特性,并基于这些理解给出对未来一段时间的预测视频作为模型输出。
世界模型是学习真实世界物理和数学定律的模型,能预测未来事件。在自动驾驶中,有两种观点:
世界模型作为数据生成器,为端到端模型训练提供合成数据,提高训练覆盖度,降低成本。
世界模型经过微调,可转变为端到端自动驾驶模型,已有初步探索和验证。但受限于车端算力,未来可能需通过模型压缩技术解决。
端到端与纯视觉传感器方案
端到端自动驾驶方案对传感器无特殊要求,不影响感知架构。虽有误解认为端到端仅限视觉,实则基于视觉BEV的方案因信息丰富被广泛采用。端到端和BEV均为前融合方案,传感器选择灵活,未来可能融合激光雷达或4D毫米波等传感器。
4、 早期端到端自动驾驶的关键成果
NVIDIA: DAVE-2 (2016)
2016年,英伟达发布"End to End Learning for Self-Driving
Cars"论文,介绍CNN驱动的端到端自动驾驶系统DAVE-2。系统通过CNN处理摄像头图像直接输出转向,用模拟数据训练,表现优异。DAVE-2革新自动驾驶框架,提升系统简化和适应性,推动领域发展。
Wayve.AI于2017年在英国剑桥成立,2018年发布"Learning to Drive
in a Day"论文,展示其系统快速学习驾驶的能力。不同于NVIDIA的DAVE-2,Wayve采用强化学习结合深度学习,一天内训练即可应对复杂城市驾驶,Demo在伦敦表现良好。
comma.ai自2015年成立,2017年发布OpenPilot软件,实现L2级自动驾驶,适配200余车型。2020年后,OpenPilot转为端到端神经网络模型,成为首个商业化端到端自动驾驶产品。
5、 近期端到端自动驾驶的重要进展
OpenDriveLab的UniAD(2023)是一种全栈Transformer端到端模型,含感知、预测和规划模块。TrackFormer和MapFormer进行环境感知,MotionFormer预测轨迹,规划模块优化路径。模型通过query与BEV特征交互,实现精确的环境理解和决策。
Wayve的GAIA-1(2023)利用生成式世界模拟技术,提升自动驾驶视频生成能力,实现多模态内容创造。LINGO-2(2024)将视觉-语言-动作大模型应用于自动驾驶,提高AI决策透明度,推动商业化测试。
LINGO-2模型执行驾驶任务,能用自然语言与用户沟通决策原因,提升信任。模型按用户指令调整驾驶行为,支持视觉问答,展示环境理解。
Tesla的FSD v12.4 采用端到端方案,提升复杂场景泛化能力和交互灵活性,驾驶风格更自然。技术阶段未明,研究或成One
Model端到端基础,有望用于自动驾驶和机器人。
|