基于卷积神经网络的面部表情识别算法及实现文献综述

2020-04-14 17:28:32

1．目的及意义

计算机视觉是计算机科学中一个重要的分支,主要研究如何让机器理解现实世界的事物,像人一样“看”懂世界。通过计算机识别人脸在现实生活中运用前景广泛,比如社交机器人、医疗领域、情绪分析、智能安全等,一直以来都是工业界和学术界研究的热点。面部表情识别是人脸识别中重要的部分,是计算机理解人的情感的重要方向。表情识别是用计算机处理静态或动态的人脸图像,然后识别出人的表情。美国心理学家Ekman和Friesen通过大量的实验,总结出人的六种基本表情：快乐、气愤、惊讶、害怕、厌恶和悲伤。语言沟通传达了人类沟通的三分之一,而非语言成分传达了人类沟通的三分之二。

传统的面部表情识别方法基本上分为三个主要步骤：(1)人脸以及人脸成分检测,(2)特征提取,(3)表情分类。首先,输入静态或动态的面部图像,检测出人脸的区域和人脸成分(如眼和鼻子)或者是其他的标志；其次,从检测出的结果中提取相关的特征；然后用支持向量机(SVM)、AdaBoost、Random、Forest等预先训练的面部表情分类器利用提取的特征生成识别结果。

随着深度学习和大数据的不断发展,计算机视觉领域在这些新的研究思想的推动下,也获得了快速法发展。由LeCun等在1989年提出的LeNet模型是历史上第一个真正意义上的卷积神经网络模型,随后出现多个改进版本,使用最多的是1998年提出的LeNet-5模型,在手写识别应用上取得了较好的成绩。2006年,Hinton等人在《Science》上发文,其主要观点有：(１)多隐层的人工神经网络具有优异的特征学习能力；(２)可通过“逐层预训练”(layerwisper training)来有效克服深层神经网络在训练上的困难,从此引出了深度学习(DeepLearning)的研究,同时也掀起了人工神经网络的又一热潮。他的课题组为了证明深度学习的潜力,设计了AlexNet模型,在2012年的ILSVRC(ImageNet Large Scale Visual Recognition Competition)中取得了第一,相比传统机器学习方法有一定的优势。在2014年举办的ILSVRC比赛中,牛顿大学的视觉几何组提出VGGNet获得了定位任务第1名和分类任务第2名。相比较AlexNet,VGGNet模型中使用统一的参数,增加了深度网络模型的深度,分别定义了16层的VGG16和19层的VGG19。同样在这一年的比赛中,取得分类任务第1名的是GoogleNet模型,该模型更深为22层并引入了Incepting单元结构。在2015年的ILSVRC比赛中,取得第1名的是ResNet模型,该模型引入了残差网络(ResidualNetwork)结构,更深层次的网络模型不仅没有出现模型性能退化,反而取得了更好的性能。

基于深度学习方法的面部表情识别允许直接从输入图像在管道中进行端到端学习,极大地减少了基于人脸物理模型和其他预处理技术的依赖。在现有的几种神经网络中,卷积神经网络(CNN)在图像识别方面表现更加优秀。

{title}

2. 研究的基本内容与方案

{title}

目的：设计一个基于卷积神经网络的面部表情识别系统,用python语言结合Pytorch机器学习库实现,然后用现有的图像库FER2013或CK 图像库训练,再用非训练库中的图像测试,正确率达到一定的比率。通过这个过程如何搭建,训练和测试卷积神经网络模型。

初步计划采用的方案如下：

2.1 获取数据集

通过网络访问官方网站下载RER2013和CK 图像库。

2.2 预处理数据

检测人脸、数据扩充、人脸对齐,在把图片载入内存的过程中,通过构建一个队列,每次从外部磁盘读取部分数据打乱后放到内存中,内存只需维护队列大小的空间,这样避免直接全部载入内存导致内存不够用,耗时长。

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码