基于卷积神经网络的车辆检测外文翻译资料

2021-12-19 22:03:33

英语原文共 43 页

基于卷积神经网络的车辆检测

摘要：

准确的车辆检测或分类在智能运输系统中起着重要作用。在交通场景中检测车辆的能力允许分析驾驶员的行为以及检测交通违规和事故。由于天气和光照条件以及车辆类型的多样性，车辆的检测和分类是具有挑战性的任务。几种解决方案使用特征提取算法以及支持向量机分类器。然而，卷积神经网络已被证明可能更有效。在本论文中，我们提出了一个卷积神经网络，训练从多个角度对车辆进行分类和检测。此外，在数据预处理期间使用快速傅里叶变换。在开发的车辆分类器和检测器上检查这种预处理的效果。

关键字：

神经网络，车辆检测，车辆分类，快速傅里叶变换

CERCS: P170计算机科学，数值分析，系统，控制

1 绪论

1.1 概观

物体检测，跟踪和分类可用于各种目的。在智能交通系统（ITS）领域中，物体检测用于车辆和行人检测，交通标志和车道检测或车辆检测。能够检测或分类交通相关的物体，可以进一步改善道路和交通流量的状态，防止严重的交通事故，甚至登记交通违规和犯罪，如被盗车辆或超速。这一点尤其重要，因为乘用车用户数量不断增加。此外，最近，自动驾驶汽车的话题越来越受欢迎。
人类很容易识别图像或视频中的车辆或区分不同的车型。对于计算机程序，车辆检测和分类的难度很大程度上取决于数据的类型。照明条件和天气是主要挑战之一，更不用说图像或视频的整体质量。车辆有不同的形状和颜色，有些车型甚至可能略有相似。而且，实时检测大量移动物体肯定更具挑战性。
然而，有许多用于车辆检测和分类的技术。许多工作通过首先提取相关特征然后使用支持向量机（SVM）之类的分类器来做出进一步的决策来处理这些任务。由于计算机视觉领域不断发展，一些新方法开始脱颖而出。在本文中，我们研究卷积神经网络以及它们如何应用于计算机视觉问题。

1.2 目标

本论文的目的是开发一种卷积神经网络（CNN），对车辆和背景图像进行车辆检测和分类。更确切地说，目标如下：
- 实施能够预测正确图像类别的分类器：车辆或非车辆。
- 实施必须预测车辆边界框坐标的车辆检测器。
- 在数据预处理期间使用快速傅里叶变换（FFT）。
- 调查FFT是否会改善或降低开发解决方案的准确性。
在本论文中，检测仅限于为每个输入图像找到一个车辆。

1.3 贡献

贡献包括用于车辆检测和分类的CNN。除此之外，还要研究FFT对输入数据的影响。为此，必须完成以下步骤：
- 查找车辆和背景数据集。
- 将预处理技术应用于收集的数据。该步骤包括使用FFT的实验预处理。
- 开发适合数据集的CNN架构和本论文的目标。
尝试使用不同的超参数对于获得一个好的模型至关重要
- 培训CNN进行车辆分类和检测。
- 测试最终解决方案。

1.4 流程

本论文共分五章。论文的其余部分结构如下：
- 第2章介绍了使用CNN进行物体检测以及车辆检测和分类的现有解决方案。另外，描述了基于特征的车辆检测和分类方法。
- 第3章介绍了本文的分类和检测流程。本章介绍了用于实验的数据集以及应用于数据的预处理步骤。更重要的是，CNN的构建块与提出的网络架构一起被解释。
- 在第4章中，介绍了实验结果。本章包括使用基本CNN和CNN以及FFT预处理进行车辆分类和检测的结果。
- 最后，第5章总结了本论文的工作，并提出了未来的工作观点。

2 技术发展水平

本章概述了CNN如何应用于对象检测任务。此外，本章介绍了一些使用CNN进行车辆检测和分类的解决方案。此外，描述了用于车辆检测和分类的基于特征的方法。

2.1 背景介绍

物体检测和分类在计算机视觉领域中发挥着重要作用。然而，为了获得良好的结果，对象检测和分类需要大量的初步工作。这包括图像预处理，例如去除噪声，调整对比度，重新调整大小和减去背景。接下来，必须检测和提取可行的特征。例如，可以使用尺度不变特征变换（SIFT）[2]，加速稳健特征（SURF）[3]或定向梯度直方图（HOG）[4]来生成兴趣点。长期以来，物体检测和分类取决于这些手工制作的功能。因此，选择好的特征对于实现高精度至关重要[5]。
然而，最近，对诸如CNN之类的深度学习技术的兴趣增加了。虽然第一个CNN可以追溯到20世纪90年代[6]，但它在AlexNet [7]赢得ImageNet大规模视觉识别挑战赛（ILSVRC）之后大受欢迎。总体而言，CNN不仅在计算机视觉领域内，而且在语音识别和自然语言处理领域中取得了出色的成果。CNN的优势来自于不需要广泛的预处理[8]和手工制作的功能。
智能交通系统（ITS）在很大程度上依赖于物体检测和分类。例如，物体检测有助于分析交通流量和行为或识别交通事故[1]。有各种因素可能使识别过程更加困难，例如不同的照明和天气条件，数量不同
一个图像中的车辆类型或捕获的车辆的距离。
本章介绍了与CNN结合的对象检测的现有文献。此外，本章还介绍了各种车辆检测和分类方法。它包括基于特征提取器和支持向量机分类的旧方法以及使用CNN的方法

2.2 物体检测

2013年Girshick等[9]引入了R-CNN，一个有区域提案的CNN。在他们的论文中，作者希望表明CNN能够比使用HOG等低级功能的方法获得更好的结果。他们的物体检测管道由三部分组成。首先，R-CNN使用选择性搜索来创建区域提案，即可能包括某些物体的各种区域。接下来，使用AlexNet从每个检测到的区域提取4096维特征向量。架构中唯一的变化是分类层中的单元数。之后，使用SVM对每个特征向量进行分类，其中每个SVM已经针对特定类进行了训练。在ILSVRC2013检测数据集中，R-CNN得分优于Overfeat.Sermanet等[10]提出了一个神经网络，可用于三个计算机视觉任务：对象分类，定位和检测。除此之外，还发布了一个名为Overfeat的特征提取器。作者的目的是证明CNN能够做的不仅仅是分类。 AlexNet被用作分类的基础网络。对AlexNet所做的修改包括非重叠池，前两层中较小的步幅大小以及省略对比度归一化。对于本地化任务，分类模型的完全连接的层被改变为回归网络。训练回归网络以输出四个边界框坐标。分类器和回归网络同时运行。然后，合并他们的结果以获得最终预测。检测任务类似于本地化，但是为不包含任何对象的图像添加了背景类。
YOLO [11]是最新的物体检测方法之一。以前的一些工作使用分类器来执行对象检测。相反，所提出的方法在同一神经网络内预测边界框坐标以及类别得分。与基于区域提案的网络不同，YOLO使用整个图像而不是单独的区域来做出决策。网络架构基于GoogleLeNet，初始模块由缩减层替代。首先对20个卷积层进行预训练，然后将另外4个卷积层和2个完全连接的层添加到模型中。每个输入图像被分成一个网格。每个网格单元预测边界框坐标，边界框置信度和类概率。
Ming Liang和Xiaolin Hu [12]提出了一个经常性的CNN。该解决方案的灵感来自于递归神经网络中的循环连接。作者开发了一个循环卷积层，用于代替所提出模型中的常规卷积层。只有网络的第一个卷积层不是经常性的。基础网络和培训流程改编自AlexNet。通过添加循环连接来增加网络的深度。

2.3 物体分类

2012年Krizhevsky等人[7]通过引入AlexNet在大数据集图像分类方面取得突破。虽然在竞赛中使用了其他几种机器学习方法，但作者证明CNN能够管理数百万张图像并获得高成效。最终结果的关键是AlexNet的深度。除了减去平均值之外，没有对数据集进行预处理。建议的网络由五个卷积层和三个完全连接层组成。作者选择ReLU作为激活功能，因为它大大提高了训练的速度。在前两层激活后应用本地响应标准化。此外，重叠池有助于减少训练期间的过度拟合。最后一层是softmax层，有1000个单位。培训在两个GPU上完成，每个GPU可以访问不同的层。数据增加和丢失用于减少过度拟合网络。
2014年[13]引入了另一个成功的CNN架构--VGGNet。通过这种神经网络，作者在ILSVRC#39;14竞赛的分类和本地化任务中获得了第一名和第二名。网络的基础灵感来自AlexNet。与AlexNet类似，唯一的预处理是平均提取。作者尝试了不同的网络深度，以了解它如何影响最终结果。与先前架构的不同之处在于在所有卷积层中使用较小的内核大小3times;3。除此之外，CNN包含多个顺序卷积层，其间没有池化层。作者测试了六种不同深度的不同配置。当网络由16层和19层组成时，获得了最好的结果。
CNN-RNN [14]是一种卷积神经网络，与一种用于多标签分类的递归神经网络相结合。多标签分类的目标是预测同一图像中多个对象的标签。作者观察到，将RNN添加到原始网络可以提高准确性。长期短期存储器单元用作该网络的重复单元。网络的CNN部分基于VGGNet，用于从图像中收集语义信息。 RNN部分处理图像和标签的关系。

2.4 车辆检测和分类

本节概述了使用CNN或基于特征的方法的车辆检测和分类方法。

2.4.1 使用基于特征的方法

车辆检测和分类具有使用诸如SIFT，SURF和HOG之类的描述符的各种解决方案与CNN相比，通过前面提到的提取的特征方法相当低级。通常，支持向量机（SVM）用作分类器。
在[15]中，作者使用SIFT和词袋的组合，并使用SVM执行车辆制造和模型的分类。另一种方法首先减去车辆周围的背景，然后分割图像并使用SIFT提取特征[16]。作者执行特征匹配以评估结果。 Ma和Grimson [17]“采用SIFT，对车辆分类进行了几次关键修改，作为边缘点的描述符”。
使用改进的SURF算法 - 对称的SURF描述符[18]执行另一种车辆制造和模型识别。这种修改的想法是识别输入是否包含对称对象。所提出的方法适用于实时数据，不需要背景减法。
X. Li和X. Guo [19]开发了一种使用HOG描述符和SVM的前方车辆检测系统。他们的想法依赖于检测车辆下方的阴影以区分车辆和背景。此外，该方法证明在不同的照明条件下表现良好。与之前的研究相似，Sivaraman和Trivedi [20]利用车辆下方的阴影。使用HOG和提出的检测对称特征的对称HOG来提取特征。在他们的研究中，冯涵等[21]将HOG与SVM结合使用，从不同角度检测人员和车辆。首先，作者使用立体声提示来检测人或候选人。然后，使用SVM进行使用HOG特征的分类。对于每个视点，作者开发了单独的分类器，这些分类器同时应用以获得连接结果。 Pablo Negri等[22]在其车辆检测研究中利用HOG和Haar特征。实际上，作者尝试合并这些描述符并获得准确的最终结果。

2.4.2 使用卷积神经网络

董等[23]提出了一种半监督的CNN，用于从正面视图图像中检测车辆。在卷积层中使用的滤波器是使用未标记的数据和所提出的稀疏拉普拉斯滤波器学习来学习的。输出层是softmax分类器，其在小标记数据上训练。最终解决方案被证明在用于分类车辆类型时是有效的。一年前，董等[24]引入了无监督的CNN用于车辆分类。他们使用CNN学习功能，然后使用softmax回归对车辆进行分类。使用稀疏过滤方法学习其网络中的过滤器。

资料编号：[4356]

您需要先支付 20元 才能查看全部内容！立即支付

注册

找回密码