基于CNN的图像风格转换技术的研究开题报告
2020-02-18 17:05:34
1. 研究目的与意义(文献综述)
1.1 研究目的及意义
随着社会生活水平不断提高,拍照、社交已成为人们生活必不可少的组成部分,而人们越来越不满足于对于原始图像的需求,转而希望在原始图像的基础上发掘更多的想象空间。传统依赖线性变换的图像处理已经无法满足人们的需要,尤其是传统的图像处理算法对于图像的风格处理几乎无能为力,其无法感知和构建一张图片的风格,使得对于图像的处理非常单一,所以构建功能更加强大的智能图像处理系统成为必然的趋势,本文所研究的基于cnn的图像风格转换技术可以提取并重构图片的风格,使得对图像的处理有更大的发挥空间。
计算机计算能力的不断升级逐渐打破了庞大计算量带给人工智能领域的限制,图像超分辨率重建、无人驾驶、人脸识别等技术相继出现并得到广泛的应用,在人工智能领域的核心内容就是通过深度学习处理和表达信息。cnn即卷积神经网络,可以在训练数据的驱动下自适应地构建特征描述,具有极强的适应性和灵活性,它类似于生物神经网络的权值共享网络可以产生生物视觉中的局部感受视野效应,善于发掘数据的局部特征,提取全局特征训练和分类,在计算机视觉和模式识别等领域取得了很好的成果。
2. 研究的基本内容与方案
本课题研究基于卷积神经网络的图像风格转换技术,实现一种风格转换算法,可以将输入图像的风格转换为参考风格图像的风格,并保留输入图像的内容特征。这个过程中研究的主要内容包括算法中如何表示图片的内容和风格、对于风格的数学表达式的相关运算的意义、如何实现图像风格转换的算法。要求学习并设计经典的VGG-16网络,实现一种快速风格迁移算法,训练三种风格生成模型。深度学习的开发平台建议使用基于python的TensorFlow平台,要求风格迁移明显,耗时不超过三十秒。
本次设计的整体模型如图1所示,整个系统由两部分组成:一个是图片转换网络fw,另一个是损失网络φ。其中ys是我们的风格目标,实际训练时就是我们的风格图片,yc是我们的内容目标,实际就是要进行转换的图片,即yc=x,y即转换网络生成的融合图像。
|
图1 系统模型
损失网络φ使用已经训练好的VGG-16网络,φ用来定义一系列的损失函数,用来衡量图片经过转换网络生成出的的目标图像y与风格图片ys在风格上的损失以及内容图片yc在内容上的损失。我们定义style-loss和content-loss分别来衡量两张图片风格和内容的差别,在内容损失计算时我们不使用逐像素求差的方法,转而使用从VGGNet中提取的高层次的图像特征来求差。在进行风格损失计算时我们定义一个特征空间,风格特征定义为不同滤波器滤波结果后feature map两两之间的相关性,风格损失使用多个隐层上风格特征之间距离差平方的累加和来表示。
本次设计采用的技术路线是首先定义好图片生成网络,其总体属于残差网络,包括3个卷积层,5个残差块,3个卷积层,在前三个卷积层进行下采样,在最后的三个卷积层进行上采样。之后将内容图片x输入到图片生成网络中,得到生成的图像y。然后分别将x、y、风格图像ys输入到VGG-16网络中,通过定义好的感知损失函数分别对x和y,ys和y在CNN高层次的图像特征求差来计算内容损失和风格损失,使用SGD的方法更新权重,使用COCO数据集进行训练,将COCO数据集全部跑完之后就可以得到一个风格迁移效果较好的图片生成网络,我们把这个网络保存下来,之后需要进行ys风格的迁移时,直接将图片输入到此网络中即可。技术流程图如图2、3。
3. 研究计划与安排
(1)第1-3周:查阅相关文献资料,明确研究内容,学习毕业设计研究内容所需理论的基础。确定毕业设计方案,完成开题报告。
(2)第4-5周:掌握卷积神经网络的实现原理,完成英文资料的翻译,熟悉开发环境。
(3)第6-9周:完成卷积神经网络的设计和训练。
4. 参考文献(12篇以上)
[1] gatys, leon a., alexander s. ecker, and matthias bethge. "a neuralalgorithm of artistic style." nature communications (2015).
[2] johnson, justin, alexandre alahi, and li feifei. "perceptuallosses for real-time style transfer and super-resolution." european conferenceon computer vision (2016): 694-711.
[3]. gatys l a, ecker a s, bethge m. image style transfer using convolutionalneural networks[c]//proceedings of the ieee conference on computer vision andpattern recognition. 2016: 2414-2423.