超越简单叙述：通过多对抗训练由图像生成诗歌外文翻译资料

2021-12-22 22:40:37

英语原文共 9 页

超越简单叙述：通过多对抗训练由图像生成诗歌

摘要

从图像中自动生成自然语言已引起广泛关注。在本文中，我们从以往的诗歌自动生成进一步探究利用图片自动生成诗歌的方法。这项任务涉及多个挑战，包括从图像中发现诗意线索（例如，从绿色中发现希望），然后创作诗歌，满足与图片的关联和语言层次上的诗意。为了解决上述挑战，我们通过policy gradient的多对抗训练，将诗歌生成的任务制定为两个相关的子任务，通过这种方式，可以保证跨模态的相关性和诗歌的语言风格。为了从图像中提取诗意线索，我们将探讨深度集成嵌入模型。在此模型内，物体，情感（注1）和图像中的场景的诗意表达被联合学习。为进一步引入两个判别网络来指导诗的产生，模型包括多模式鉴别器和诗歌风格鉴别器。为了便于重新搜索，我们已经通过人工标注发布了两个不同的诗歌数据集，这些数据集具有两个不同的特性：1）是第一个人工标注的图像对诗对数据集（共有8,292对），以及2）到目前为止最大的公共英语诗歌语料库数据集（共有92,265首不同的诗歌）。我们用8K图像进行了大量实验，其中随机挑选1.5K图像进行评价。客观评价和主观评价都表明，它优越于目前由图片生成诗歌的最先进方法。我们对超过500名人类受试者进行图灵测试，其中30名评估员是诗歌专家，结果证明了我们的方法的有效性。

这项工作是在刘蓓作为微软研究院的研究实习生时进行的。

dagger;通讯作者

注1：我们在本研究中考虑可以表达情感和情感的形容词和动词作为情感词。

允许制作本作品的全部或部分数字或硬拷贝供个人或课堂使用，无需付费，但前提是复制品的制作或分发并非为了利润或商业利益，且复制品在第一页上附有本通知和完整引文。必须尊重作者以外的其他人拥有的本作品组件的版权。允许用信用证提取。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定的许可和/或费用。从permissions@acm.org请求权限。

2018年10月22日至26日，韩国首尔

ACM ISBN 978-1-4503-5665-7/18/10。hellip;15.0美元

https://doi.org/10.1145/3245008.3240587

图1：人对于同一幅图片的书面描述和作诗。在这两种形式中，我们可以看到对于同一幅画的截然不同的文字描述。诗歌不是在图像中描述事实，而是从图像中获得来自物体，场景和情感的更深层的意义和诗意象征（例如暗夜中的骑士，战斗和狩猎，蓄势待发）。

所属概念：

计算方法学→自然语言生成；图像表示；顺序决策；高级语言学习；

关键字：

图片、诗歌创作、对抗性训练

ACM参考格式：

刘蓓、傅建龙、加藤真本、吉川正树。2018。超越简单叙述：通过多重对抗性训练从图片中生成诗歌。2018年ACM多媒体会议（mm#39;18），2018年10月22日至26日，韩国首尔。ACM，纽约，纽约，美国，9页。https://doi.org/10.1145/3245008.3240587

一．引言

近年来，视觉和语言两方面的研究引起了人们的极大关注，我们可以从图像描述--例如图像标题和段落[1，4，17，29]的大量研究可以看出这一点。图像描述的目的是生成句子来描述人类语言图像中的事实。本文进一步解决了一个更具认知性的课题：以诗歌创作为目的，于图像中产生诗歌语言。这个课题已经引起了学术界和工业界的极大兴趣。

在自然语言处理领域，与诗歌生成相关的问题已经被研究了一段时间。在[12,35]中，著作者主要关注风格和韵律的质量。在[8,35,41]中，这些研究又迈出了一步，即从主题中产生诗歌。在[33]中提出了以图像启发的四行诗生成方法。在工业领域，Facebook提出用神经网络生成英语押韵诗[12]，微软已经开发了一个名为XiaoIce的系统，其中诗歌生成是最重要的特征之一。尽管如此，以端到端的方式从图像中创作诗歌仍然是一个面临巨大挑战的新话题。

然而，以端到端的方式从图像中生成诗歌仍然是一个具有巨大挑战的新课题。

与侧重于生成一幅图片的描述性句子的图像说明和分段相比，诗歌语言的生成是更具挑战性的问题。视觉表现与诗意象征之间存在较大的差距，这些差异可以从图像中得到启发，并有助于更好地创作诗歌。例如，在图像说明中检测到的“人”，在诗歌创作中可以用“明亮的阳光”和“张开的手臂”来进一步表示“希望”，或者用“空椅子”和“黑暗”来表示“孤独”。图（1）显示了同一图像的描述和诗歌之间差异的具体例子。

特别地，为了从图像中产生一首诗，我们面临将着以下三个挑战。首先，与主题中的诗歌生成相比，它是一种跨模态问题。从图像中生成诗歌的直观方式是首先从图像中提取关键词或标题，然后将它们视为诗歌生成的种子，就像从主题中生成诗歌一样。然而，关键词或标题会错过图像中的大量信息，更不用说对诗歌生成具有重要作用的诗意线索了[8,41]。其次，与图像说明和分段相比，图像中的诗歌生成是一个更主观的任务，这意味着图像可以从多个方面与几首诗歌相关。而图像说明/分段，更多的是描述图像中的事实并产生类似句子。第三，诗句的形式和风格与叙事句不同。在这项研究中，我们主要关注自由诗歌，这是一种开放的诗歌形式。虽然我们不需要格调，韵律或其他传统的诗歌技巧，但它在诗歌中重新构成了一种诗意结构和诗意风格的语言。但它在诗歌中仍具有一定的诗体结构和诗体语言意义。在本研究中，我们将这一诗性定义为诗性。例如，诗的长度通常不太长，诗歌中的特定词语比形象描述更为可取，一首诗中的句子应与一个主题一致。

为了解决上述挑战，我们通过人工标注集成了两个诗歌数据集，并通过将检索和生成技术集成到一个系统中来创作诗歌。具体来说，为了更好地从图片中学习到诗意从而生成诗歌，我们根据图像的CNN特征和MultiM-Poem数据集中的skip-thought特征对嵌入模型进行训练（包含数千个“图像-诗歌”对的多模态诗歌数据集MultiM-Poem）。随后将嵌入模型用于数据量更大的单模态诗歌数据集（UniM-Poem），检索更多与这些图像相关的诗歌，结成更多的数据对，与MultiM-Poem数据集结合构成扩展数据集（MultiM-Poem (Ex)）。进一步的，我们采用最先进的序列学习（sequential learning），用MultiM-Poem (Ex)数据集对模型进行了训练，从扩展数据集中提取和建模更多有助于产生“诗意”的信息。这样一个框架确保了大量的诗意线索，这些线索对于诗歌的产生具有重要意义，即可以从这些扩展对中发现和建模。

为了避免发生由长序列的长度（所有诗行组合在一起）引起的偏差问题，以及没有比损耗可用于对所生成的诗进行评分的问题，我们建议使用递归神经网络（RNN）多重对抗训练，并通过策略梯度算法进一步优化。这两个判别网络被用于根据所产生的诗与给定图像的相关性和生成的诗的诗意来提供奖励。我们在MultiM-Poem，UniM-Poem和MultiM-Poem（Ex）上进行实验，以图作诗。所产生的诗歌以客观和主观的方式进行评估。我们定义了关于相关性，新颖性和翻译一致性的自动评估指标，并对所产生的诗歌的相关性，连贯性和想象力进行了用户调查，以便将我们的模型与基线方法进行比较。本研究的贡献总结如下：

我们建议以端到端的方式从图像中生成诗歌（英语自由诗）。在我们的知识中，这是第一次尝试在整体框架中研究图像启发的英语诗歌生成问题，这使得机器能够在认知任务中接近人类的能力。

我们采用深度集成诗意嵌入模型和基于RNN的生成模型进行联合学习，两个鉴别网络通过多重对抗训练，对生成诗歌与图像的关联性和诗意进行奖励和优化。

我们收集了人工标注的第一个图像和诗歌配对的数据集，以及最大的公共诗歌语料库数据集。大量实验通过使用客观和主观评估指标，包括来自500多名人类受试者的图灵测试，证明了我们的方法与几个基线相比的有效性。为了更好地促进图像中诗歌生成的研究，我们在Github上发布了这些数据集。

二.相关工作

2.1生成诗歌

传统的诗歌生成方法包括模板和基于语法的方法[20-22]，约束优化下的生成摘要[35]和统计机器翻译模型[11,13]。近年来，通过深度学习方法，人们对诗歌创作的研究已经进入了一个新的阶段。递归神经网络被广泛应用于诗歌创作，它甚至会使读者分不清是诗人所作诗歌还是模型生成的诗歌[8，9，12，37，41]。以往的诗歌创作主要集中在诗歌的风格和韵律品质上[12，35]，而最近的研究则把主题作为诗歌创作的条件[8，9，35，41]。对于一首诗来说，主题仍然是一个相当抽象的概念，因为它没有具体的场景。受到许多诗歌是在特定场景中创作这一事实的启发，我们更进一步解决了在视觉场景中产生诗歌的问题。与以往的研究相比，特别是在多模态问题方面，我们的工作面临着更多挑战。

2.2图像描述

图像标注首先被视为一个检索问题，其目的是从给定图像的数据集中搜索标注[5,14]，因此无法为所有图像提供准确和正确的描述。为了克服这个问题，我们提出了模板填充法[18]和卷积神经网络（CNN）与递归神经网络（RNN）相结合的范例法[2，29，36，38]来生成可读的句子。最近，生成对抗性网络（GAN）应用于基于不同的问题设置生成标注[1,39]。与图像标注类似，图像分段也是类似的。最近关于图像段落的研究主要集中在生成句子的区域检测和层次结构[17,19,24]。然而，正如我们已经解决的那样，图像标注和分段旨在生成描述性句子来讲述图像中的事实，而诗歌生成则是处理一种高级的语言形式，这种形式需要诗性和语言风格的约束。

方法

在这项研究中，我们的目标是通过图像生成诗歌，使生成的诗歌与输入图像相关并具有诗意。为此，我们将问题转化为多重对抗步骤[10]并进一步用策略算法进行优化[32,40]。CNN-RNN生成模型充当代理。此代理的参数定义一个策略，其执行将决定将哪个单词作为操作选择。当代理挑选了一首诗中的所有单词时，它会观察到奖励。我们定义了两个有区别的网络，无论生成的诗是否与输入图像配对，以及生成的诗是否诗意，它们都会得到奖励。我们的诗歌生成模式的目标是生成一系列的词汇作为一首诗歌，以获得最大的预期最终回报。这种策略梯度方法对许多没有不可区分指标的任务都有显著的效果[1，25，39]

如图（2）所示，框架由几部分组成：

（1）深度集成诗意嵌入模型，用于学习图像的诗意表征，以及（2）通过策略梯度优化的多重对抗性训练过程。一个基于RNN的生成器作为代理，两个有区别的网络为策略梯度提供奖励。

图2：多重对抗性训练的诗歌生成框架。深度集成诗意嵌入模型（e）由人工标注的图像-- 诗（a）训练。图像特征（b）是通过来自诗歌的POS解析器[28]提取的诗歌符号（例如，物体，场景和情感）微调CNN而获得的诗意多重CNN特征。诗歌的句子特征（d）是从在最大的公共诗歌语料库（UniM-Poem）上训练的skip-thought模型（c）中提取的。基于RNN的句子生成器（f）被训练为代理，并且考虑到多模态（g）和诗歌风格（h）对生成的诗歌关于给定图像的评论提供了对策略梯度（i）的奖励。词类分析器从诗歌中提取词类的一部分。

3.1深度集成诗意嵌入模型

诗意嵌入模型[6,15]的目标是学习一个嵌入空间，其中不同模态的点，例如图像和句子可以投射到这个空间。与图像标注问题类似，我们假设一对图像和诗歌具有相似的诗意语义，这使得嵌入空间可以学习。通过将图像和诗歌嵌入到同一个特征空间中，我们可以通过诗歌的矢量表示直接计算诗歌与图像之间的相关性。此外，嵌入特征可以进一步用于初始化诗歌生成的诗歌线索的优化表示。

我们的深度集成诗意嵌入模型的结构如图（2）左侧所示。对于图像的输入，我们利用三个深度卷积神经网络（CNN）来讨论三个方面，这些方面表明来自细粒度问题的图像的重要诗意线索[7]，即对象（v1），场景（v2）和情感（v3），在用图像进行诗歌创作的重要因素的先前用户研究之后。我们观察到诗歌中的概念往往是富有想象力和诗意的，而我们用来训练CNN模型的分类数据集中的概念是具体和常见的。为了缩小图像的视觉表现与诗歌的文本表达之间的语义差距，我们建议用MultiM-Poem数据集对这三个网络进行微调。具体而言，选择频繁使用的关于诗歌中的对象，情感和场景的关键词作为标签词汇，然后分别基于MultiM-Poem数据集构建三个用于对象，情感和场景检测的多标签数据集。一旦构建了多标签数据集，我们就可以独立地对三个数据集上预先训练好的CNN模型进行微调，这是通过Sigmoid交叉熵作为损失来优化的，如公式1所示。

之后，我们对每个方面都采用了D维的深度特征。从CNN模型的倒数第二个完全连接层，得到一个连接的n维（n=dtimes;3）特征向量作为每个图像的视觉诗意嵌入的输入：

视觉-嵌入向量x的输出是K维度矢量表示图像嵌入与图像特征的线性映射:

其中是图像嵌入矩阵，是图像偏置矢量。同时，一首诗的表征特征向量由skip-t

资料编号：[3884]

您需要先支付 20元 才能查看全部内容！立即支付

注册

找回密码