自动驾驶技术-环境感知篇：基于视觉相关技术介绍

作者：Garvin Li

次浏览

次

2024-7-16

编辑推荐:

本文主要介绍下车载摄像头的基础知识以及视觉算法的基本原理，另外还会对自动驾驶视觉技术的几大经典场景做一个介绍，希望对你的学习有帮助。
本文来自于CSDN，由火龙果软件Alice编辑，推荐。

01 概述

在前面的文章介绍了环境感知中不同雷达的作用，一个标准的自动驾驶解决方案需要雷达与视觉技术的配合使用。视觉技术其实是仿生理学的解决方案，因为现实世界中司机驾驶车辆就是依靠视觉去做行车过程中的决策。

02 车载摄像头介绍

从硬件成本分析，车载摄像头是技术相对成熟而成本最低的的一种方案。使用车载摄像头的缺点主要是后续数据的分析，需要依赖大量的标注数据和模型训练资源去训练成熟的用于自动驾驶的各种机器学习相关模型。

常见的车载摄像头功能如下表所示：

（1）单目摄像头VS双目摄像头

常见的摄像头分为单目和双目两种摄像头，未来的自动驾驶技术将大概率以单目摄像头为主。

单目摄像头工作流程同样遵循图像输入、预处理、特征提取、特征分类、匹配、完成识别几个步骤，其测距原理是先匹配识别后估算距离：通过图像匹配识别出目标类别，随后根据图像大小估算距离。

单目摄像头的内容分析可以通过经典的深度学习算法实现。

双目摄像头测距原理与人眼类似，通过对图像视差进行计算，直接对前方景物进行距离测量；从视差的大小倒推出物体的距离，视差越大，距离越近；

双目测距步骤：相机标定 —— 双目校正 —— 双目匹配 —— 计算深度信息（测距）。

（2）摄像头的标定

与雷达相似，摄像头也需要做标定，需要把世界坐标系、摄像头坐标系、摄像头内的图像坐标和像素坐标做统一标定，这样识别出来的内容才可以正确的应用到自动驾驶流程中。

因为摄像头拍摄的图像是二维的，而真实世界是三维的，需要通过算法将二维空间的信息转换为三维。类似于下图这种方案：

03 视觉算法基本原理

既然摄像头识别对象是依赖深度学习算法，那么视觉相关算法的基本原理也需要大致介绍下。目前各种车载自动驾驶摄像头里面用的图像识别类算法基本上都是CNN的结构，就是卷积神经网络。

卷积神经网络在认知图像的过程其实跟人大脑认知图像的原理类似。大脑识别图像的过程其实是将图片在人脑的各级神经元抽象成各种小的元素，比如棱角、直线等等，然后将这些元素所在的神经突触激活，最终信息传导下去形成认知。卷积神经网络模仿了这种图像识别的流程，通过卷积的各层将图像全部细节元素识别出来，形成最终的认知。