基于深度学习的视频目标检测方法研究与系统实现文献综述

2020-04-28 20:26:46

一、选题背景目标检测对于人类来说不难，通过对图片中不同颜色模块的感知，很容易定位并分类出其中目标物体。

但对于计算机来说，面对的是红绿蓝像素矩阵，很难从图像中直接得到狗和猫这样的抽象概念并确定其位置，再加上有时候多个物体和杂乱的背景混杂在一起，目标检测就更加困难。

传统目标检测方法一般使用滑动窗口的框架，主要包括以下三个步骤：(1)利用不同尺寸的滑动窗口，框住图像的某一部分，将其作为候选区域；(2)提取候选区域相关的视觉特征，比如人脸检测常用的 Harr 特征、行人检测和普通目标检测常用的 HOG 特征等；(3)利用分类器进行识别，比如常用的SVM模型。

但是传统目标检测主要存在两个问题：一是基于滑动窗口的区域选择策略没有针对性，时间复杂度高，窗口冗余；二是手工设计的特征对于多样性的变化并没有很好的鲁棒性。

深度学习的概念由Hinton等人于2006年提出，深度学习源于大脑认知原理的研究，是一种能够模拟出人脑的神经结构的机器学习方式，从而能够让计算机拥有人工智能，大家所熟知的 AlphaGo 就是深度学习典型的一个应用。

深度学习的许多研究成果，离不开对大脑认知原理的研究，尤其是视觉原理的研究。

人类识别气球的视觉原理如下：从原始信号摄入开始(瞳孔摄入像素 Pixels)，接着做初步处理(大脑皮层某些细胞发现边缘和方向)，然后抽象(大脑判定，眼前的物体的形状是圆形的)，然后进一步抽象(大脑进一步判定该物体是只气球)。

基于深度学习的目标检测便应运而生，主流的检测方式有两种，第一种就是选区域(Region Proposal)。

候选区域利用图像中的纹理、边缘、颜色等信息，预先找出图中目标可能出现的位置，可以保证在选取较少窗口(几千个甚至几百个)的情况下保持较高的召回率。

这大大降低了后续操作的时间复杂度，并且获取的候选窗口要比传统目标检测采用的滑动窗口的质量更高。

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付