基于CNN的图像风格转换技术的研究文献综述
2020-04-14 17:18:19
1.1 研究目的及意义
随着社会生活水平不断提高,拍照、社交已成为人们生活必不可少的组成部分,而人们越来越不满足于对于原始图像的需求,转而希望在原始图像的基础上发掘更多的想象空间。传统依赖线性变换的图像处理已经无法满足人们的需要,尤其是传统的图像处理算法对于图像的风格处理几乎无能为力,其无法感知和构建一张图片的风格,使得对于图像的处理非常单一,所以构建功能更加强大的智能图像处理系统成为必然的趋势,本文所研究的基于CNN的图像风格转换技术可以提取并重构图片的风格,使得对图像的处理有更大的发挥空间。
计算机计算能力的不断升级逐渐打破了庞大计算量带给人工智能领域的限制,图像超分辨率重建、无人驾驶、人脸识别等技术相继出现并得到广泛的应用,在人工智能领域的核心内容就是通过深度学习处理和表达信息。CNN即卷积神经网络,可以在训练数据的驱动下自适应地构建特征描述,具有极强的适应性和灵活性,它类似于生物神经网络的权值共享网络可以产生生物视觉中的局部感受视野效应,善于发掘数据的局部特征,提取全局特征训练和分类,在计算机视觉和模式识别等领域取得了很好的成果。
在机器学习领域,计算机视觉是深度学习技术应用最有突破性的领域,其中图像处理的应用更是极为广泛。本次设计要实现图像的风格迁移,图像风格迁移是指给出一张图像A和一张风格图像B,求一张图像C,使得图像C和图像A内容一致而风格又与图像B相近。这是一个较新的研究领域,其难度在于如何去定义或者说如何让计算机准确分辨出图像的风格特征,绘画的风格是很抽象的概念,不同画家的风格我们可以很容易用肉眼分辨,但是在计算机看来就是一堆像素的叠加,于是就需要计算机找到除了像素外更加潜在的可以量化的特点,本设计基于几位科学家提出的算法对图像的风格进行特征提取并将其迁移到另一图像上,通过对风格迁移的研究,我们可以探索卷积神经网络更为“人性化”的应用。基于深度学习的风格迁移效果很好,具有广阔的应用前景,在图像处理领域,图像美化是一个非常热门的应用技术,相比于传统的只能对图像进行模式较为固定的处理,基于卷积神经网络的图像风格迁移为图像风格设计带来了更大的想象空间,而Prisma甚至作为第一款免费提供图像风格迁移服务的移动应用程序问世,随后陆续出现了各种风格迁移应用软件,产生了一定的商业价值;其次,在视频处理领域,影视特效技术随处可见,但其创作需要特殊的专业技能、大量的手工劳动,而使用人工智能技术,可以大幅降低制作成本,图像风格迁移就是一个解决方案,Anderson等人就是用了光流和深度神经网络来进行电影的风格化。所以基于深度学习的图像风格迁移是具有较大的研究价值。
1.2国内外研究现状
基于卷积神经网络的图像风格迁移算法属于较新的研究领域,2015年8月,Leon A.Gats等科学家在其论文《A Neural Algorithm of Artistic Style》中提出通过重建VGG网络中间层的抽象特征表示,能够从任意图像中提取抽象的内容表示,而通过构造Gram矩阵可以提取任意图像的风格特征表示,这篇论文开启了深度学习提取图像风格的先河。这类方法是直接在白噪声图像上进行风格迁移,其目标是优化白噪声图像,其风格迁移的效果非常好,但缺点就是每次进行风格迁移都要进行不断的迭代优化,耗时几乎难以接受。2016年3月,Justin Johnson等人在Gats的基础上,提出了对生成模型进行迭代优化的方法,也称fast-style-transfer,其使用感知损失函数为某种函数训练出一个生成模型,不再对白噪声图像进行优化,而是用数据集去训练一种风格的生成网络模型,以后要对这种特定的风格进行迁移只需要将图片输入此生成网络即可。此方法大幅度提高了风格迁移的效率。其缺点就是只能对特定图像风格进行训练,每种风格都要对为之训练一种模型。同年,Google Brain研究出一种MSPM算法,可以在一个模型中保存多张风格图片的风格,即单模型多种风格的风格迁移算法,2017年,李一君等人提出了一种单模型任意风格的风格迁移算法,其不需要通过学习训练,而是使用一系列特征变换来实现ASPM风格迁移,其只用一种模型即可以对任意风格进行迁移。除了在模型能对应多少种风格上取得了进展,在对图像风格迁移效果也取得了长足的进展,2018年,李一君等人的《A closed-form solution to photorealistic imagestylization》一文,为图像风格化得到的结果进行了平滑处理,是的后期图片可以获得照片般的效果。{title}2. 研究的基本内容与方案
{title}本课题研究基于卷积神经网络的图像风格转换技术,实现一种风格转换算法,可以将输入图像的风格转换为参考风格图像的风格,并保留输入图像的内容特征。这个过程中研究的主要内容包括算法中如何表示图片的内容和风格、对于风格的数学表达式的相关运算的意义、如何实现图像风格转换的算法。要求学习并设计经典的VGG-16网络,实现一种快速风格迁移算法,训练三种风格生成模型。深度学习的开发平台建议使用基于python的TensorFlow平台,要求风格迁移明显,耗时不超过三十秒。
本次设计的整体模型如图1所示,整个系统由两部分组成:一个是图片转换网络fw,另一个是损失网络φ。其中ys是我们的风格目标,实际训练时就是我们的风格图片,yc是我们的内容目标,实际就是要进行转换的图片,即yc=x,y即转换网络生成的融合图像。
|
图1 系统模型
损失网络φ使用已经训练好的VGG-16网络,φ用来定义一系列的损失函数,用来衡量图片经过转换网络生成出的的目标图像y与风格图片ys在风格上的损失以及内容图片yc在内容上的损失。我们定义style-loss和content-loss分别来衡量两张图片风格和内容的差别,在内容损失计算时我们不使用逐像素求差的方法,转而使用从VGGNet中提取的高层次的图像特征来求差。在进行风格损失计算时我们定义一个特征空间,风格特征定义为不同滤波器滤波结果后feature map两两之间的相关性,风格损失使用多个隐层上风格特征之间距离差平方的累加和来表示。
本次设计采用的技术路线是首先定义好图片生成网络,其总体属于残差网络,包括3个卷积层,5个残差块,3个卷积层,在前三个卷积层进行下采样,在最后的三个卷积层进行上采样。之后将内容图片x输入到图片生成网络中,得到生成的图像y。然后分别将x、y、风格图像ys输入到VGG-16网络中,通过定义好的感知损失函数分别对x和y,ys和y在CNN高层次的图像特征求差来计算内容损失和风格损失,使用SGD的方法更新权重,使用COCO数据集进行训练,将COCO数据集全部跑完之后就可以得到一个风格迁移效果较好的图片生成网络,我们把这个网络保存下来,之后需要进行ys风格的迁移时,直接将图片输入到此网络中即可。技术流程图如图2、3。
[1] Gatys, Leon A., Alexander S. Ecker, and Matthias Bethge. "A NeuralAlgorithm of Artistic Style." Nature Communications (2015).
[2] Johnson, Justin, Alexandre Alahi, and Li Feifei. "PerceptualLosses for Real-Time Style Transfer and Super-Resolution." european conferenceon computer vision (2016): 694-711.
[3]. Gatys L A, Ecker A S, Bethge M. Image style transfer using convolutionalneural networks[C]//Proceedings of the IEEE Conference on Computer Vision andPattern Recognition. 2016: 2414-2423.
[4] K. Simonyan and A. Zisserman. Very Deep Convolutional Networks for Large-ScaleImage Recognition. arXiv:1409.1556 [cs], Sept. 2014.
[5] 高扬, 卫峥, 白话深度学习与TensorFlow [M],2017.09
[6] 张顺,龚怡宏,王进军.深度卷积神经网络的发展及其在计算机视领域的应用[J].计算机学报.2017: 40
[7] 黄文坚, 唐源, TensorFlow实战[M], 电子工业出版社,2017年02月.
[8]陈淑環, 韦玉科, 徐乐, 董晓华, 温坤哲. 基于深度学习的图像风格迁移研究综述[J/OL]. 2019,36(8). [2018-07-23]
[9] Gatys L A, Bethge M, Hertzmann A, et al. Preserving color in neural artisticstyle transfer [J]. arXiv preprint arXiv: 1606. 05897, 2016.
[10] Li Yanghao, Wang Naiyan, Liu Jiaying, et al. Demystifying neural styletransfer [J]. arXiv preprint arXiv: 1701. 01036, 2017.
[11] Li Yijun, Fang Chen, Yang Jimei, et al. Universal style transfer viafeature transforms [J]. arXiv preprint arXiv: 1705. 08086, 2017.
[12]Li Yijun, Liu Mingyu, Li Xueting, et al. A closed-form solution to photorealisticimage stylization [J]. arXiv preprint arXiv: 1802. 06474,2018.
[13] Yin Rujie. Content aware neural style transfer [J]. arXiv preprintarXiv:1601. 04568, 2016.
[14] Anderson A G, Berg C P, Mossing D P, et al. DeepMovie: using optical flowand deep neural networks to stylize movies [J]. arXiv preprint arXiv:1605.08153, 2016.
[15] Li Chuan, Wand M.Precomputed real-time texture synthesis with markovian generative adversarialnetworks [C]// Proc of European Conference on Computer Vision. [S. I. ] :Springer Press, 2016: 702-716. 1.目的及意义1.1 研究目的及意义
随着社会生活水平不断提高,拍照、社交已成为人们生活必不可少的组成部分,而人们越来越不满足于对于原始图像的需求,转而希望在原始图像的基础上发掘更多的想象空间。传统依赖线性变换的图像处理已经无法满足人们的需要,尤其是传统的图像处理算法对于图像的风格处理几乎无能为力,其无法感知和构建一张图片的风格,使得对于图像的处理非常单一,所以构建功能更加强大的智能图像处理系统成为必然的趋势,本文所研究的基于CNN的图像风格转换技术可以提取并重构图片的风格,使得对图像的处理有更大的发挥空间。
计算机计算能力的不断升级逐渐打破了庞大计算量带给人工智能领域的限制,图像超分辨率重建、无人驾驶、人脸识别等技术相继出现并得到广泛的应用,在人工智能领域的核心内容就是通过深度学习处理和表达信息。CNN即卷积神经网络,可以在训练数据的驱动下自适应地构建特征描述,具有极强的适应性和灵活性,它类似于生物神经网络的权值共享网络可以产生生物视觉中的局部感受视野效应,善于发掘数据的局部特征,提取全局特征训练和分类,在计算机视觉和模式识别等领域取得了很好的成果。
在机器学习领域,计算机视觉是深度学习技术应用最有突破性的领域,其中图像处理的应用更是极为广泛。本次设计要实现图像的风格迁移,图像风格迁移是指给出一张图像A和一张风格图像B,求一张图像C,使得图像C和图像A内容一致而风格又与图像B相近。这是一个较新的研究领域,其难度在于如何去定义或者说如何让计算机准确分辨出图像的风格特征,绘画的风格是很抽象的概念,不同画家的风格我们可以很容易用肉眼分辨,但是在计算机看来就是一堆像素的叠加,于是就需要计算机找到除了像素外更加潜在的可以量化的特点,本设计基于几位科学家提出的算法对图像的风格进行特征提取并将其迁移到另一图像上,通过对风格迁移的研究,我们可以探索卷积神经网络更为“人性化”的应用。基于深度学习的风格迁移效果很好,具有广阔的应用前景,在图像处理领域,图像美化是一个非常热门的应用技术,相比于传统的只能对图像进行模式较为固定的处理,基于卷积神经网络的图像风格迁移为图像风格设计带来了更大的想象空间,而Prisma甚至作为第一款免费提供图像风格迁移服务的移动应用程序问世,随后陆续出现了各种风格迁移应用软件,产生了一定的商业价值;其次,在视频处理领域,影视特效技术随处可见,但其创作需要特殊的专业技能、大量的手工劳动,而使用人工智能技术,可以大幅降低制作成本,图像风格迁移就是一个解决方案,Anderson等人就是用了光流和深度神经网络来进行电影的风格化。所以基于深度学习的图像风格迁移是具有较大的研究价值。
1.2国内外研究现状
基于卷积神经网络的图像风格迁移算法属于较新的研究领域,2015年8月,Leon A.Gats等科学家在其论文《A Neural Algorithm of Artistic Style》中提出通过重建VGG网络中间层的抽象特征表示,能够从任意图像中提取抽象的内容表示,而通过构造Gram矩阵可以提取任意图像的风格特征表示,这篇论文开启了深度学习提取图像风格的先河。这类方法是直接在白噪声图像上进行风格迁移,其目标是优化白噪声图像,其风格迁移的效果非常好,但缺点就是每次进行风格迁移都要进行不断的迭代优化,耗时几乎难以接受。2016年3月,Justin Johnson等人在Gats的基础上,提出了对生成模型进行迭代优化的方法,也称fast-style-transfer,其使用感知损失函数为某种函数训练出一个生成模型,不再对白噪声图像进行优化,而是用数据集去训练一种风格的生成网络模型,以后要对这种特定的风格进行迁移只需要将图片输入此生成网络即可。此方法大幅度提高了风格迁移的效率。其缺点就是只能对特定图像风格进行训练,每种风格都要对为之训练一种模型。同年,Google Brain研究出一种MSPM算法,可以在一个模型中保存多张风格图片的风格,即单模型多种风格的风格迁移算法,2017年,李一君等人提出了一种单模型任意风格的风格迁移算法,其不需要通过学习训练,而是使用一系列特征变换来实现ASPM风格迁移,其只用一种模型即可以对任意风格进行迁移。除了在模型能对应多少种风格上取得了进展,在对图像风格迁移效果也取得了长足的进展,2018年,李一君等人的《A closed-form solution to photorealistic imagestylization》一文,为图像风格化得到的结果进行了平滑处理,是的后期图片可以获得照片般的效果。{title}2. 研究的基本内容与方案
{title}本课题研究基于卷积神经网络的图像风格转换技术,实现一种风格转换算法,可以将输入图像的风格转换为参考风格图像的风格,并保留输入图像的内容特征。这个过程中研究的主要内容包括算法中如何表示图片的内容和风格、对于风格的数学表达式的相关运算的意义、如何实现图像风格转换的算法。要求学习并设计经典的VGG-16网络,实现一种快速风格迁移算法,训练三种风格生成模型。深度学习的开发平台建议使用基于python的TensorFlow平台,要求风格迁移明显,耗时不超过三十秒。
本次设计的整体模型如图1所示,整个系统由两部分组成:一个是图片转换网络fw,另一个是损失网络φ。其中ys是我们的风格目标,实际训练时就是我们的风格图片,yc是我们的内容目标,实际就是要进行转换的图片,即yc=x,y即转换网络生成的融合图像。