在本章节

表情识别:从传统方法到深度学习

随着科技的发展,科学家们试图赋予计算机理解人类的表情,以实现更好人工智能。人脸表情识别技术作为一门崭新的学科已经受到了国内外许多科研机构的关注。一套完整的人脸表情识别系统包括:人脸检测与定位,表情特征提取和表情分类。人脸表情图像一般可以应用专业设备进行采集,或者使用国际专业的人脸表情数据库。常用的人脸表情数据库有:

Japanese Female Facial Expression(JAFFE)日本女性表情数据库,Cohn-Kanade(CK)人脸表情数据库,Extended Cohn Kanade(CK+)人脸表情数据库,Facial Expression Recognition 2013(FER2013)人脸表情数据库,Yale耶鲁大学人脸数据库等。

表情识别

惊讶表情

表情特征提取方法有Gabor小波变换、局部二值模式(LBP)、局部线性嵌入(LLE)、梯度方向直方图(HOG),基于Fisher准则的线性判别分析算法(LDA)等。表情分类方法分为隐马尔可夫模型法(HMM)、神经网络、支持向量机(SVM)、Adaboost 算法,K最近邻算法(KNN)等。

2006年,Hinton等人在《科学》上发表的一篇论文,开启了深度学习的浪潮。他在论文中阐述了两个主要思想:首先,增加隐含层的层数可以增强网络的学习能力,使得学习到的特征更加贴近物体本身;其次,多层网络随着训练时间的增加,训练难度也会随之加大,但如果每一层进行单独训练,则训练的难度和时间都有所改善。Hinton 的思想很快就被广泛应用到学术界和工业界。目前,深度学习已经在语音处理、计算机视觉、自然语言处理、医疗应用等方面取得重大进展。许多高校与科研机构已经开展了对深度学习的研究。Google 公司已经开发出许多基于深度学习的开源项目如自然语言解析器SyntaxNet,深度学习引擎

TensorFlow,图像分类工具TF-Slim等,这些系统是完全开源的,已经广泛地用于多个领域。百度公司开发了一款基于深度学习的语音识别系统DeepSpeech,它可以在饭店等嘈杂环境下实现将近81%的辨识准确率。

深度学习模型能对数据进行有效的特征提取,这是许多浅层的机器学习模型所达不到的。因此,将深度学习引入到表情识别,可以使计算机深度理解人脸表情图像的表达意义。研究者大多采用将深度学习应用到表情特征提取中,然后再连接表情分类器的做法。但是,基于深度学习的表情识别存在以下的问题:首先,深度学习模型训练时间较长的问题,要设计合适的深度学习模型。深度学习已在许多领域取得了突破性进展,尤其是在图像处理和语音识别方面。但是,由于深度学习模型固有的结构与算法问题,在许多实际的深度学习的应用中,训练时间往往过长,对硬件要求较高,需要强大的处理器等。因为人脸表情图像数据量巨大,因此,需要设计合适的深度学习模型应用到表情识别当中,使系统能快速准确的进行表情识别。其次,针对深度学习得到的层次性特征,设计快速而准确的分类器。人脸表情识别的最后一步是对人脸显示出的表情进行分类。深度学习模型模拟了大脑的深度组织结构,能够自下向上自动学习不同层次的抽象特征,而不依赖于人工选择的自动提取特征。因此,深度学习所提取的表情特征更有利于可视化,更能表征人脸表情的本质,得到具有层次性的人脸表情特征。因此,要设计一个针对深度学习得到的层次性特征能够快速而又准确的进行表情分类的分类器。


深度学习

目前,大部分学者利用卷积神经网络实现表情识别。Liu等人提出了构建一个新的深度网络AUDN,它利用面部动作编码系统(FACS)的面部动作单元AU为特征,用卷积神经网络与多层受限制玻尔兹曼机进行特征提取,最后用支持向量机做表情分类器。外国学者Byeon使用3D卷积神经网络去识别视频人脸表情。Jung将卷积神经网络与深度神经网络结合起来形成新的DTAGN网络,卷积神经网络基于图像序列训练,深度神经网络基于时间的面部标志点的训练,最后将两个网络提取的特征结合起来,输入到分类器中进行表情识别。

深度学习在表情识别的研究还处于萌芽阶段,仍有许多问题值得研究。国内学者施徐敢将深度信念网与多层感知器进行融合,利用深度信念网提取高层次的表情特征,将得到的特征输入到多层感知器中实现表情分类。目前,已经有许多研究者开始关注这一领域,相信不久的未来,会有诞生出很多更好的基于深度学习的表情识别方法。