基于卷积神经网络的多目标图像检测研究开题报告
2020-02-20 08:01:01
1. 研究目的与意义(文献综述)
目前,人工智能时代已经到来,作为走向人工智能之路的重要工具——深度学习已经走进了人们的视野之中。目前,在我们的生活中,其实随处可见深度学习的身影。它采用多层次的、模拟人脑的网络结构,能够更好的提取特征,并且几乎不用人工的干预,自主学习,“认识”所学习的物体,打破了传统的以来人工提取某种特征的方式,在算法效果上得到了极大的提升。
卷积神经网络是深度学习中众多的网络结构中的一种。卷积神经网络可以像人类一样直接读取二维图像,结构上也更类似于人类的视觉神经系统,因而具有强大的特征提取能力,在目标识别、检测的效果上远超传统方法。
国内外许多团队在开展多目标检测的研究与目标识别的相关研究,目前仍然面临着许多严峻的挑战。真实的三维世界在向二维世界中投影的过程中, 信息必然会有所损失,并且图像中的噪声影响、待检测目标复杂的运动模式、目标的部分或被严重遮挡、场景光照条件的改变、应用的速度与准确性要求等都增加了目标检测的难度。
目前,目标检测在传统的计算机视觉研究中心被分为实例目标检测和类别目标检测。
目标检测是指:根据目标实例的表现特征判别性对目标进行识别。真实世界中许多人造物纹理特征较少,如塑料、玻璃等。对于这类物体,视觉特征无法被稳定的提取,所以对于这类物体的识别和检测,主要依靠目标的轮廓和形状。对于纹理特征明显的物体,则可以对其纹理作为视觉特征,提取稳定丰富的特征描述子。目前主流的有以下几种方法:Scale Invariant Feature Transform(SIFT),PCA-SIFT,Speed Up Robust Features(SURF)。
目标类别检测是指:对于特定类别的目标,检测其存在性或位置。基于Adaboost框架,Viola使用Haar-like小波特征分类,然后采用滑动窗口搜索策略实现准确有效地定位。滑窗的思想在后续的目标检测研究中被广泛使用。Dalal提出使用HOG算子作为特征,利用支持向量机SVM作为分类器进行行人检测。之后Felzenszwalb提出了目标类别检测最具有影响力的检测方法之一:多尺度形变部件模型Deformable Parts Model(DPM).DPM继承了使用HOG特征和SVM分类器的优点,由一个根滤波器和一些部件滤波器组成,组件之间的形变通过隐变量进行推理。Ren使用基于系数表达学习理论的稀疏编码直方图特征HSC代替DPM中的HOG特征,检测率有所提升。
2012年前,目标检测中分类任务的框架就是使用人为设计的特征训练浅层分类器完成分类任务,最佳算法是基于DPM框架的各种改进算法。2012年后深度学习,尤其是深度卷积网络Deep Convolutional Neural Network(DCNN)开始成为目标检测领域的研究热点。
近年来,NVIDIA公司所开发的CUDA及CUDNN运行套件,极大的加速了矩阵的计算速度。在GPU计算的帮助下,深度神经网络发展迅速。
于2015年,YOLO算法被提出。YOLO算法的主要创新之处在于,其摒弃了原始的区域选择过程,从而暴力的将输入图片按一定比例划分出正方的方格,然后对于每个方格穿绳大小不同的边界框,并进行回归,这样做的好处在可以极大加速检测过程,在NVIDIA TITAN X上可以达到45dps的处理速度。但是缺点也很明显,就是对于重叠的物体或小物体,检测能力较弱。
对于目标检测算法的性能对于见图1-1,。可见YOLO算法和Faster R-CNN算法,在实现多目标图像检测任务上具有较高的跟进价值和可行性。
图1-1 主流目标检测算法和网络性能对比
国内对于深度学习在目标检测领域的研究起步较晚,陈江晖等人提出了一种检测小目标的方法,在保证召回率的前提下大量减少候选区域的数量,利用多尺度和多层次CNN提取候选区域的中高层语义信息进行目标分类。其余大部分研究则是一些基于以上理论节后实际场景的应用。
2. 研究的基本内容与方案
基本内容:现有的深度学习目标识别框架主要分为两种,一种是以faster r-cnn为代表的基于rpn(候选区域选择网络)的卷积神经网络框架,识别精度较高,但是识别速度很低。第二种是利用回归思想,以yolo,ssd网络为代表的卷积网络框架,识别精度较低,但是处理速度很快。这两个目标检测算法基于国外公开数据集voc,coco等,存在识别不全、不准的情况。本次毕业论文的主要工作内容是:1.制作特定生活目标的数据集。2.在基于caffe框架下的faster r-cnn候选区域思想上,训练得到对于常见生活目标进行识别的网络模型并进行微调学习参数,最终进行性能测试。3.对于常见的深度学习框架进行研究和实验,对比得出tensorflow框架综合性能优良的结论。
首先对公开数据集voc进行扩充,在实际生活场景中用个人手机进行拍摄图像来采集实验需要的生活目标,如水杯、汽车、人、椅子等图像数据,采用labellmg软件对采集图片进行目标标定并保存为xml格式的文件,将生成的数据集用于卷积神经网络对于真实环境的多目标图像识别。之后对流行深度学习框架进行简单测评, 通过计算性能进行对比,选择tensorflow作为实验框架,得出tensorflow综合表现良好的结论。
3. 研究计划与安排
第1-3周:明确设计任务,查阅不少于15篇文献,其中外文文献不少于3篇,撰写开题报告;
第2-4周:不少于5000字的外文文献翻译;
第5-8周:完成对常用的目标识别算法进行综合对比;
4. 参考文献(12篇以上)
参考文献:
[1]谢一德. 基于深度卷积神经网络和图像传感器的道路多目标检测研究[d].北京交通大学,2018.
[2] ren s, he k, girshick r, et al. faster r-cnn: towards real-time object detection with region proposal networks[c]//advances in neural information processing systems. 2015: 91-99.
[3]krizhevsky a, sutskever i, hinton g e. imagenet classification with deep convolutional neural networks[c]//advances in neural information processing systems. 2012: 1097-1105.