目标检测分割方法研究开题报告
2020-04-13 13:42:16
1. 研究目的与意义(文献综述)
在人们的生活中,大部分信息都是通过视觉获取的。对于视觉图像信息的处理一直是人们研究的热点,特别是对目标的检测与分割更是应用在生活中的很多方面,比如说在医疗上可以通过技术手段对医疗影像进行识别与分割从而判断生理情况,在交通上可以对道路以及车辆进行识别,为无人驾驶做铺垫等。人们可以很容易的识别出一张图片上的物体,可对于计算机来说检测并分割图片上的信息却不是一件简单的事情。
目标检测与分割就是对一张图片的所有目标进行正确的检测同时还对每个实例进行像素级的分割。传统的目标检测方法对图像的特征提取和分类一般是分开进行的,在特征提取上多需要人工选取特征进行提取,人工选取的特征往往又是片面的,且对不同的识别对象需要不同的参数,很难做到一套算法适用在各个场景之中,并且很容易受到外界因素的影响,在识别的精度上面也不尽人意,可见传统的目标检测算法还是存在很多不足。深度学习于上个世纪五十年代被提出,虽然深度学习的算法虽然早就被提出来,但是由于受到硬件条件的限制,并没有得到广泛的重视。图像的处理是深度学习算法最早尝试应用的领域。且早在1989年,加拿大多伦多大学教授yann lecun就和他的同事提出了卷积神经网络。当时cnn在小规模图像处理上取得了很好的成功但在大尺寸图片上一直没有取得突破。随着人工智能的不断发展,特别是gpu集群的出现,使得需要大规模数据训练的神经网络得以实现。到了2012年10月,hinton教授以及他的学生采用更深的卷神经网络模型在著名的imagenet问题上取得了世界最好结果,使得深度学习对于图像识别的领域研究更进一步,神经网络深度学习的方法也被广泛的应用到图像处理领域上,并在图像处理领域取得了极大的成功。
2. 研究的基本内容与方案
对图像的目标检测与分割是目前研究的热点。而实例分割的难度在于要先对一张图片所有的目标进行正确的检测同时还要对每个实例进行分割。检测的目的是把每一个单个目标分类然后用bounding box标定出来,实例分割的目的是区分每一个像素为不同的分类而不用区别不同的目标。针对目标检测与图像分割的算法也是层出不穷。本文主要对目前已有的目标检测与分割的主流方法进行比较分析,并重点研究基于深度学习的目标检测与分割方法的实现。
传统的目标检测一般有如下几个步骤:图像预处理、特征提取、模式分类最后得到检测结果。每个算法都不可避免的需要对图像进行预处理,传统的方法通常将特征提取与模式分类分开处理,而特征提取则是最关键的一步,可以通过基本特征视觉特征等进行提取,模式分类一般使用人工神经网络、adaboost分类和svm向量机。基于深度学习的目标检测与分割方法如r-cnn则是候选框提取(selective search) 特征提取(cnn) 分类器(svms)。简单来说就是先生成对边框的推荐,然后在预训练的 alexnet 上运行方框里的物体。用支持向量机来看边框里的物体是什么。再在线性回归模型上跑该边框,在物体分类之后输出更紧的边框的坐标。也从此衍生出很多基于r-cnn改进的算法。至于图像分割的算法有基于阀值分割、基于边缘分割、基于区域分割、基于图分割、基于深度学习的如fcn、超像素分割等。实例分割的基本思路为目标检测 语义分割。先用目标检测方法将图像中的不同实例框出,再用语义分割方法在不同包围盒内进行逐像素标记。语义分割则是逐像素进行图像分类。我们将整张图像输入网络,使输出的空间大小和输入一致,通道数等于类别数,分别代表了各空间位置属于各类别的概率,即可以逐像素地进行分类。而mask r-cnn通过添加一个与现有目标检测框回归并行的,用于预测目标掩码的分支扩展faster r-cnn以实现同时对目标进行检测并进行像素级的分割。本文将会对其中一些算法进行分析比较,并选择性的实现。
3. 研究计划与安排
2018/3/5-2018/4/30 搭建运行环境,参考实现相关算法,编译运行得出实验结果。
2018/5/1-2018/5/25 撰写及修改毕业论文
4. 参考文献(12篇以上)
[1] he k, gkioxari g,dollár p, et al. mask r-cnn[j]. 2017.
[2] r. girshick, j.donahue, t. darrell and j. malik, "rich feature hierarchies for accurateobject detection and semantic segmentation," 2014 ieee conferenceon computer vision and pattern recognition (cvpr), columbus, oh, usa, 2014,pp. 580-587.