基于对抗网络的游戏人物动作模仿与实现文献综述
2020-04-14 20:06:40
格斗类、生存类等游戏中为达到真实的体验,往往对游戏人物的动作仿真度要求很高。但是传统的方式,需要使用昂贵的人体动作捕获设备来采集人体姿态信息,然后通过后期模型处理移植到游戏人物身上。不仅成本高,设备穿戴复杂,而且后期处理工作量大,不能快速地塑造出游戏人物并还原真实的人物动作。我们提出一种基于实时2D人体姿态估计[1]和生成式对抗神经网络[4]采集动作信息并迁移到游戏人物身上的方法[5]。
姿态估计的目标是在RGB图像或视频中描绘出人体的形状,这是一种多方面任务,其中包含了目标检测、姿态估计、分割等等。有些需要在非水平表面进行定位的应用可能也会用到姿态估计,例如图形、增强现实或者人机交互。关于人体姿态估计的研究,目前以CMU的OpenPose[1]和FaceBook的DensePose[2]最为有名。OpenPose使用了非参数化的表示,定义为部分亲和力场(PAFs),来学习图片中身体部位与整体的关系,允许贪心的自下而上解析姿态,无论图像中的人有多少,都能达到高的精度,同时实现实时性能。另外,该架构通过相同的顺序预测过程的两个分支来共同学习部位的位置及其关联。该方法首先应用于COCO 2016姿态挑战库,实验结果显示其性能和效率都远远超过了此前MPII多人基准测试的结果[1]。
自2014年首篇关于GAN[4](Generative Adversarial Nets,生成式对抗网络)的论文发表,奠定了GAN研究的基础,后续几乎所有关于GAN的研究[10]都是基于此。它提出了一个通过对抗过程估计生成模型的新框架,同时训练两个模型:捕获数据分布的生成模型G和估计的鉴别模型D,最终使得生成器生成的图像无法被鉴别器分辨。在GAN的基础上,又有了图像生成、图像转化、风格迁移等方面的研究[6]-[9],这也正是本课题研究的重点。由于图像生成技术的进步和对常见图像映射框架所做的大量工作,现在可以学习从姿势到目标主体的映射。自从最近出现用于近似生成模型的生成式对抗网络(GAN)[4]以来,GAN已被用于包括图像生成在内的许多目的,特别是因为它们可以生成具有清晰细节的高质量图像。除了特定的应用或映射之外,研究还采用对抗性训练来学习任意的图像到图像的翻译。在过去几年中,已经开发了几个使用GAN实现这种映射的框架,包括pix2pix[6],CoGAN[17],UNIT[16],DiscoGAN[18],CycleGAN[7],Cascaded Refinement Networks[19]和pix2pixHD[11]。鉴于针对从人体到游戏人物的运动转换方法,可以选择和采用这样的框架来实现。CVPR2018年的“EveryBody Dance Now”[5]是借助姿态估计与对抗网络实现了人类舞蹈动作的转换。
借助OpenPose和生成式对抗网络,可以完成实时人体姿态估计和游戏人物动作生成,实现了一种在真实的人体和游戏人物之间转换运动动作的方法。给定两个视频,一个是真人动作视频,一个是游戏人物视频,我们通过端到端的基于像素的过程在两者之间转换运动。这与过去二十年中使用最近邻搜索[13][14]或3D中的重新定位运动[15]的方法形成对比。我们观察到基于关键点的姿势,其固有地表示身体姿态而不是外观[5],可以充当任何两个主体之间的中间表示,尽可能地使其与真人的外貌、衣着无关,从而借助对抗网络实现抽象姿态到游戏人物动作的转化。本课题在实现方式上与“EveryBody Dance Now”有所不同,我们在第二阶段为简化数据集制作与训练过程,采用“自回归”的方式进行对抗网络的训练,也就是输入的与游戏人物配对的人体姿态骨架图取自游戏人物本身而不是第三方,由于人体姿态骨架图抽象了姿态图背后隐含的人体外貌等信息,经过姿态规范化后可以泛化到代表所有不同外貌、衣着的同一人体形态。
{title}
2. 研究的基本内容与方案
{title}基本内容:
1)通过阅读文献,了解人体姿态估计和生成式对抗网络的基本原理,研究现有的深度学习模型,同时比较其性能与在本课题中的可行性。
2)研究人体姿态估计和对抗网络生成游戏人物两个过程的具体实现及两过程的衔接,保证第一阶段的实时性能,改善第二阶段的人物动作真实性。
3)研究使用对抗网络从人体姿态模型生成完整游戏人物过程中影响准确率的因素,并研究改进方法。