基于深度卷积神经网络的图像语义分割方法研究开题报告
2020-02-18 17:06:05
1. 研究目的与意义(文献综述)
在视觉分析领域,语义分割起着越来越重要的角色。语义分割是指将图像中的相同物体的像素分成同一类,并将不同物体分割出来。如图 1 所示,语义分割是将飞机、人等重要目标分割出来。语义分割是自动驾驶、医学图像处理、图像检索、目标分类等视觉分析的基础。例如,在自动驾驶领域,需要对道路、行人、车辆等复杂情况进行分析,从而才能汽车发出操作指令。在对这些物体分析之前,首先需要进行语义分割,即将道路、行人以及车辆分割出来。在医学图像处理领域,首先要将病灶区分割出来,才能对病灶进行量化分析。鉴于语义分割的重要性,对语义分割算法的研究具有重要的意义。
近年来,深度学习由于其对复杂问题强大的拟合能力,使得其在计算机视觉领域取得了巨大的成功。2012 年, Hinton 研究组使用 Alexnet 在 imagenet 图像分类的竞赛上取得了冠军,其准确率超过第二名 5 个百分点,使得深度学 习获得了各大高校和科研机构的密切关注。此后,深度学习广泛用于图像分类、人脸识别、语音识别、目标检测等任务,并在这些任务上取得了突破性的进展。Long 等人 在 2015 年提出了基于全卷积神经网络的语义分割方法。该方法在语义分割时,输入为一副图像,而不是 patch,大大降低了计算复杂度。该方法也成为了经典的语义分割方法。该方法的思路是将卷积神经网络中的全连接层替换成了卷积层,从而对每个像素进行分类,得到一个分类 MAP。分类完成后再通过上采样将分类获得的 MAP 映射到原图像大小,根据分类结果可以获得语义分割的结果。不同于传统的卷积神经网络必须输入固定大小的图像,在该方法中,去掉了全连接层,使得输入的图像可以是任意大小。另外,该方法还融合了多分辨率的信息,将不同大小的 MAP进行上采样,并进行融合,从而获得精确的分割图像。该方法将得到的 MAP 进行上采样的过程可以看成是一个解码的过程,是基于解码方法的开山之作。然而,该方法也存在着一定的局限性,虽然该方法融合了多分辨率信息,但是通过在进行上采样时,容易造成像素位置信息的丢失,从而影响了分割精度。2017 年深度学习在 imagenet 上的分类错误率小于百分之四,远远地高于人类的分类精度,深度学习在人脸库 LWF 上的识别精度达到了 99%,也超过了人类本身对于人脸的识别精度。因此,鉴于深度学习强大的学习能力,使用深度学习有望提高语义分割的精度。基于深度学习的语义分割也成为了研究热点。
2. 研究的基本内容与方案
⑴研究的基本内容:
①设计实现深度卷积神经网络的模型。
3. 研究计划与安排
第1-3周:收集、整理选题相关的文献资料,完成、完善方案论证,撰写开题报告;
第4-5周:认真学习选题相关的知识、理论和算法实现等,熟悉软硬件环境;
第6-8周:建立软硬件仿真模型、完成程序编写、仿真实验等,并做好相关记录及分析;
4. 参考文献(12篇以上)
[1] 江锦东. 基于卷积神经网络的室内rgb-d图像语义分割方法[d]. 华南理工大学. 2018.[2] 陈俊生. 基于深度卷积神经网络的语义分割技术研究[d]. 华南理工大学. 2018
[3] 文宏雕. 基于深度学习的图像语义分割技术研究[d]. 电子科技大学. 2018.
[4] 梁植程. 基于深度学习的语义图像分割算法[d]. 合肥工业大学. 2017.