基于深度学习的视频目标检测方法研究与系统实现文献综述
2020-04-28 20:26:46
一、选题背景 目标检测对于人类来说不难,通过对图片中不同颜色模块的感知,很容易定位并分类出其中目标物体。
但对于计算机来说,面对的是红绿蓝像素矩阵,很难从图像中直接得到狗和猫这样的抽象概念并确定其位置,再加上有时候多个物体和杂乱的背景混杂在一起,目标检测就更加困难。
传统目标检测方法一般使用滑动窗口的框架,主要包括以下三个步骤:(1)利用不同尺寸的滑动窗口,框住图像的某一部分,将其作为候选区域;(2)提取候选区域相关的视觉特征,比如人脸检测常用的 Harr 特征、行人检测和普通目标检测常用的 HOG 特征等;(3)利用分类器进行识别,比如常用的SVM模型。
但是传统目标检测主要存在两个问题:一是基于滑动窗口的区域选择策略没有针对性,时间复杂度高,窗口冗余;二是手工设计的特征对于多样性的变化并没有很好的鲁棒性。
深度学习的概念由Hinton等人于2006年提出,深度学习源于大脑认知原理的研究,是一种能够模拟出人脑的神经结构的机器学习方式,从而能够让计算机拥有人工智能,大家所熟知的 AlphaGo 就是深度学习典型的一个应用。
深度学习的许多研究成果,离不开对大脑认知原理的研究,尤其是视觉原理的研究。
人类识别气球的视觉原理如下:从原始信号摄入开始(瞳孔摄入像素 Pixels),接着做初步处理(大脑皮层某些细胞发现边缘和方向),然后抽象(大脑判定,眼前的物体的形状是圆形的),然后进一步抽象(大脑进一步判定该物体是只气球)。
基于深度学习的目标检测便应运而生,主流的检测方式有两种,第一种就是选区域(Region Proposal)。
候选区域利用图像中的纹理、边缘、颜色等信息,预先找出图中目标可能出现的位置,可以保证在选取较少窗口(几千个甚至几百个)的情况下保持较高的召回率。
这大大降低了后续操作的时间复杂度,并且获取的候选窗口要比传统目标检测采用的滑动窗口的质量更高。