基于深度卷积神经网络的图像语义分割方法研究文献综述

2020-04-14 17:18:55

1．目的及意义

在视觉分析领域，语义分割起着越来越重要的角色。语义分割是指将图像中的相同物体的像素分成同一类，并将不同物体分割出来。如图 1 所示，语义分割是将飞机、人等重要目标分割出来。语义分割是自动驾驶、医学图像处理、图像检索、目标分类等视觉分析的基础。例如，在自动驾驶领域，需要对道路、行人、车辆等复杂情况进行分析，从而才能汽车发出操作指令。在对这些物体分析之前，首先需要进行语义分割，即将道路、行人以及车辆分割出来。在医学图像处理领域，首先要将病灶区分割出来，才能对病灶进行量化分析。鉴于语义分割的重要性，对语义分割算法的研究具有重要的意义。

近年来，深度学习由于其对复杂问题强大的拟合能力，使得其在计算机视觉领域取得了巨大的成功。2012 年， Hinton 研究组使用 Alexnet 在 imagenet 图像分类的竞赛上取得了冠军，其准确率超过第二名 5 个百分点，使得深度学习获得了各大高校和科研机构的密切关注。此后，深度学习广泛用于图像分类、人脸识别、语音识别、目标检测等任务，并在这些任务上取得了突破性的进展。Long 等人在 2015 年提出了基于全卷积神经网络的语义分割方法。该方法在语义分割时，输入为一副图像，而不是 patch，大大降低了计算复杂度。该方法也成为了经典的语义分割方法。该方法的思路是将卷积神经网络中的全连接层替换成了卷积层，从而对每个像素进行分类，得到一个分类 MAP。分类完成后再通过上采样将分类获得的 MAP 映射到原图像大小，根据分类结果可以获得语义分割的结果。不同于传统的卷积神经网络必须输入固定大小的图像，在该方法中，去掉了全连接层，使得输入的图像可以是任意大小。另外，该方法还融合了多分辨率的信息，将不同大小的 MAP进行上采样，并进行融合，从而获得精确的分割图像。该方法将得到的 MAP 进行上采样的过程可以看成是一个解码的过程，是基于解码方法的开山之作。然而，该方法也存在着一定的局限性，虽然该方法融合了多分辨率信息，但是通过在进行上采样时，容易造成像素位置信息的丢失，从而影响了分割精度。2017 年深度学习在 imagenet 上的分类错误率小于百分之四，远远地高于人类的分类精度，深度学习在人脸库 LWF 上的识别精度达到了 99%，也超过了人类本身对于人脸的识别精度。因此，鉴于深度学习强大的学习能力，使用深度学习有望提高语义分割的精度。基于深度学习的语义分割也成为了研究热点。

{title}

2. 研究的基本内容与方案

{title}⑴研究的基本内容：

①设计实现深度卷积神经网络的模型。

②设计实现图像语义分割的模型。

⑵研究目标：

对交通道路上的汽车、道路、行人进行分割。将三类实物准确的用不同的颜色表示出来，且分割结果对不同的类别提供边缘轮廓。

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码