第 23 卷 第 6 期
2000 年 6 月
计 算 机 学 报
CH IN ESE J 1COM PU T ER S V o l. 23 N o. 6June 2000
人脸面部混合表情识别系统
金 辉1) 高 文2)
1) (哈尔滨工业大学计算机科学与工程系 哈尔滨 150001)
2) (中国科学院计算技术研究所 北京 100080)
收稿日期: 1999208204; 修改稿收到日期: 2000203219. 本课题得到国家自然科学基金 (69789301)、国家“八六三”高技术研究发展计划
( 86323062ZT 0320122) 及中国科学院“百人计划”的资助. 金 辉, 女, 1972 年生, 获博士学位, 主要研究领域为模式识别、图像处理.
高 文, 教授, 博士生导师, 主要研究领域为多媒体数据压缩、图像处理、计算机视觉、多模式接口、人工智能、虚拟现实等.
摘 要 根据心理学家对表情的研究和前人的工作成果, 在对动态表情图像序列的时序分析的基础上, 提出了对
混合表情的识别系统. 把脸部分成各个表情特征区域, 分别提取其运动特征, 按时序组成特征序列, 通过分析不同
特征区域所包含的不同表情信息的含义和表情的含量, 识别任意时序长度的、复杂的混合表情图像序列.
关键词 混合表情, 特征序列, 表情特征区域, 特征流
中图法分类号: T P18
The Human Fac ia l Com bined Express ion Recogn ition System
J IN H u i1) GAO W en2)
1) (D ep artm en t of Comp u ter S cience and E ng ineering , H arbin Institu te of T echnology , H arbin 150001)
2) ( Institu te of Comp u ting T echnology , Ch inese A cad emy of S ciences, B eij ing 100080)
Abstract T he hum an beings have no t on ly ra t ional th ink ing and logic reason ing ab ility, bu t a lso
percep tual th ink ing and emo tion s. In the aim of the natu ra l and in telligen t hum an2m ach ine
comm un icat ion, it is essen t ia l to m ake it po ssib le that the compu ter can understand and exp ress
the emo tion s. T h is paper summ arizes the study in the p sycho logy field and the fo rm er w o rk and
p ropo ses the com b ined exp ression recogn it ion system based on the analysis of the dynam ic
exp ression im age sequences. T he face is taken as being compo sed of severa l p rim ary exp ression
region s, in w h ich the mo tion featu res can be ex tracted and con st itu ted to eigen2sequences. T he
analysis of the arb it rary length of im age sequences of facia l exp ression s and com b ined exp ression
recogn it ion are p ropo sed and imp lem en ted by analyzing the respect ive exp ression m ean ing and the
exp ression con ten ts of d ifferen t p rim ary region s and u sing the m u lt i2fea tu re fu sion.
Keywords com b ined exp ression s, eigen sequences, p rim ary exp ression region s, eigen2f low
1 引 言
1. 1 意 义
在日常生活中, 人类的智能不仅表现在正常的
理性思维和逻辑推理能力上, 也表现在正常的情
感能力上. 在自然化的人机交互的目标中, 计算机
不能没有理解和表达情感的能力. 计算机科学中,
这种能力对促进计算机视觉系统建模和数据库的
发展都有直接的作用; 在语言学中, 可辅助唇读;
在行为学中能帮助人们研究和建立交流中的可信
度; 在商业应用方面、可视电话和电视会议方面以
及国际间商业政治的交流方面都有着重要的应用
价值.
1. 2 心理学领域的研究
生物学家达尔文所做的心理学实验表明, 面部
表情的含义不随地区和国家的不同而不同, 这一结
果具有普遍的意义. 对表情的分析可从维量分析和
分类这两种角度来研究. Ekm an 等人提出的表情六
种最基本的分类, 即高兴、惊奇、恐惧、悲伤、厌恶和
愤怒, 具有里程碑的作用. 人类所有的情绪表情都是
由这几种表情经过复杂的融合而产生的. 面部表情、
声调表情或身体姿态三方面构成了情绪表现, 而情
绪表现、情绪体验和情绪生理这三种因素又组成了
情绪的心理, 所以现实生活中的表情是千变万化的.
1. 3 识别的难点
用计算机来分析、识别面部表情是一个非常复
杂的问题, 它关键在于建立一个人类的情绪
(hum an emo tion s) 模型并把它们同人脸面部特征
及表情的变化联系起来. 但人脸是个柔性体, 不是
刚体, 很难用模型来精确描绘. 而且, 表情的识别还
依赖于其它方面的因素, 如: ①对人脸的熟悉程度.
②对各种表情的体验. 表情的表现有缓和的和激动
的、细微的和强烈的、轻松的和紧张的等诸多形式,
它的生理因素也是细微多变的, 所以非常复杂. ③
对脸部的注意程度. ④非视觉的因素也给计算机的
识别带来一定的困难. ⑤数据来源方面: 在严格的
实验中所引起的情绪表情状态带有突出的人为性
质, 这难以为实际的科学研究提供十分精确的依
据; 而在现实现场中观察的数据, 它的笼统性和复
杂性又使人难以进行数量分析, 这不能不说是人们
感到棘手从而触及它较少的原因之一. ⑥计算机本
身没有知识和经验; 光照的因素对图像的影响大,
这些也都是它的难点所在.
1. 4 计算机领域的研究
在计算机领域中, 关于面部表情识别的研究是
在最近几年才逐渐发展起来的. 文献[ 1 ]曾把人脸识
别方面特征脸 (eigenface) 的思想应用到了表情识别
中, 用静止的单帧表情图像来识别, 把表情投影到
“表情空间”. 这反映不出表情动作的变化, 没有包含
时间信息和运动信息; 扩展性不够好, 对混合表情难
以识别. 文献[ 2 ]实现的表情识别系统是用基于规则
的方法来识别较为夸张的单一表情.
在国际上,M ase [3 ]使用了光流来跟踪面部的运
动单元. L i H aibo [4 ] , Ro ivainen Pert t i 等人描述了
一种基于模型的方法, 把计算机图形学和计算机视
觉处理之间的反馈控制用于脸部图像编码系统.
Yacoob 和 D avis[5 ] 基 于 FA CS ( Facia l A ct ion
Coding System )编码, 在八方向上检测运动, 在一张
脸上有六个预定义、手工初始化的矩形区域, 使用简
化的 FA CS 规则识别六种表情. Ro senb lum M ark
和 Yacoob Yaser [6 ]等人用 RBFN 结构学习脸部特
征与人类情绪之间的相关性, 在最高一级识别情绪,
在中间一级决定脸部特征运动, 在低一级恢复运动
方向. 该系统也能实现识别六种基本表情. Peng
A n tai 和H ayes[7 ]研究了人脸表情的建模和合成, 用
基于模型的图像编码方法, 使用遗传算法来编码、合
成各种不同表情. E ssa [8 ]等用图像序列作为输入的
计算机视觉系统来观察脸部的运动单元. 视觉观察
与感知是通过优化估计光流方法与描绘脸部结构的
几何、物理肌肉模型相结合得到的. 这种建模方法产
生了一个随时间变化的脸部形状的空间模板和一个
独立的肌肉运动群的参数化表征. 该系统只能分析
固定帧数 10 帧的图像序列, 而且不能分析混合表
情. W ang M ei[9 ]识别了六种基本面部表情的程度.
本文是把脸部分成多个表情特征区域, 分别提
取其运动特征, 按时序组成特征序列, 通过分析不同
特征区域所包含的不同表情信息和表情含量, 识别
任意时序长度的、复杂的混合表情.
2 表情的分类
由于表情产生的原因、表情表现的程度以及人
们对表情的控制能力和表情的倾向等诸多方面的原
因, 使表情的变化细微而复杂, 对表情特点的概括也
显得复杂. 依据心理学的研究, 对表情分析分类的
方法很多, 本文采用 Ekm an 的最基本表情的六种
分类方法. 对六种最基本表情的主要特点概括如
表 1 所示, 表 1 中所归纳的特点是单一情绪的面部
表情[10 ].
表 1 面部表情的主要特点
表情 额头、眉毛 眼睛 脸的下半部
惊奇
①眉毛被抬起来, 以致于变高变弯.
②眉毛下的皮肤被拉伸.
③皱纹可能横跨额头.
①眼睛睁大了, 上眼皮被抬高, 下眼皮下落.
②眼白可能在瞳孔的上边露出来, 下边的也可
能露出来.
下颌下落, 嘴张开, 以致于唇和齿分开, 但嘴
部并不紧张, 也不拉伸.
3066 期 金 辉等: 人脸面部混合表情识别系统
续 表
表情 额头、眉毛 眼睛 脸的下半部
恐惧
①眉毛抬起来并皱在一起.
②额头的皱纹只集中在中部, 而不横跨整
个额头.
上眼睑抬起来, 下眼皮非常紧张, 并且被拉上
来.
嘴张开了, 嘴唇或者轻微紧张, 向后拉; 或拉
长, 同时向后拉.
厌恶
眉毛压低了, 并压低了上眼睑. 在下眼皮下部出现了横纹, 脸颊推动其向上,
并不紧张.
①上唇被抬起来.
②下唇与上唇紧闭, 推动上唇向上, 嘴角下
拉, 唇轻微凸起.
③鼻子皱起来.
④脸颊被抬起.
愤怒
①眉毛皱在一起, 并且被压低了.
②在眉宇间出现了竖直皱纹.
①下眼皮非常紧张, 可能被或可能不被抬起.
②上眼皮是紧张的, 在眉的动作下可能被压低.
③眼睛愤怒地瞪着, 可能鼓起.
①唇有两种基本位置: 紧闭, 唇角拉直或
向下; 张开, 仿佛要喊.
②鼻孔可能是张大的, 这并不是必要的.
高兴
眉毛销微下弯 ①下眼睑下边可能有皱纹, 可能鼓起, 但并
不紧张.
②鱼尾纹从外眼角向外扩张.
①唇角向后拉并抬高.
②嘴可能被张大, 牙齿可能露出来.
③一道皱纹从鼻子一直沿伸到嘴角外部.
④脸颊被抬起.
悲伤 眉毛内角皱在一起, 抬高, 带动眉毛下
的皮肤.
眼内角的上眼皮被抬高. ①嘴角下拉.
②嘴角可能在颤抖.
3 表情的模型与编码
Ekm an 和 F riesen 提出的目前最广泛被采用的
人脸运动编码系统 FA CS 是人脸上所有导致脸部
运动的运动单元的枚举. 但 FA CS 有两个主要弱
点: ①运动单元是纯粹的局部化的空间模板. ②没有
时间描述信息, 只是一个启发式信息. 其中 FA CS
不包含情绪信息, 数据的分析只是单纯的描绘运动
单元AU , 或者把 FA CS 通过字典规则转化成情绪.
本文在此基础上提出了 FA CS’, 即 FA CS 转换的表
情编码, 把运动单元的运动转化成基于物理和肌肉
模型的运动特征流向量序列来对表情编码, 相应的
运动解释基于 FA CS 的规则, 同时克服了单纯
FA CS 的弱点.
表情识别的一个难点, 就是建立表情模型. 人脸
是一个柔性体而不是一个刚体, 很难把脸部的运动
与表情联系起来. 我们根据表情序列图像的特点, 建
立了动态的表情模型: O n set→A pp lica t ion→A pex
→R elease→O ffset.
4 特征区域的定位
人脸面部的感知系统, 包括唇读、人脸识别、表
情识别等的前提条件是已知人脸图像. 人脸图像定
位以后, 根据脸部的结构信息和面部的物理2肌肉模
型, 提取表情的特征区域, 它们是由表情变化比较显
著的特征部件的相关肌肉定义的: 眼睛、眉毛区域和
嘴部区域. 虽然最终提取的特征, 不是基于结构的几
何特征, 不必精确描绘其形状信息, 但各特征区域必
须分别在大小上归一化, 在特征部件的位置与比例
上标准化. 对同一组图像序列, 特征区域的定位只在
第一帧计算得到, 其余帧都与第一帧相同, 为了防止
头部的刚体运动对测量表情运动的影响, 在标准化
时使用了旋转与平移操作; 对不同组图像序列, 对特
征区域中部件的位置与比例进行标准化: 在眼睛区
域中, 最具明显特征的是虹膜, 在边缘图像中, 虹膜
的边缘很强, 并呈圆状. 因此很容易检测得到. 从而
可得到眉毛特征, 根据眼睛及眉毛的比例可以重新
校正眼睛特征区域. 嘴部区域也是先从大致确定的
粗定位区域中, 根据灰度积分信息找到嘴部, 然后重
新校正嘴部特征区域: 如图 1.
5 面部运动的分析
关于被观察目标的运动向量即光流的估计, 主
要有三种方法[11 ]: 基于时空梯度的方法, 基于相关
的方法以及频率域的方法, 此外基于立体视的方法
也逐渐受到重视. 传统的Ho rn 与 Schunck 提出的
406 计 算 机 学 报 2000 年
基于梯度的方法, 比较适合于皮肤的变形计算, 而且
计算量比较简单, 只是逐点的估计位置的瞬时速度
场, 我们采用这种方法.
在基于梯度的方法中, 时空梯度之间的关系是
极其重要的, 这个关系被称之为基本等式, 它构成了
对光流计算的一个重要约束. 设在时间 t 和 t+ d t 时
有两幅连续的投影, 在图 t 上有灰度为 f (x , y ) 的像
素点, 这里 x , y 为该点的坐标, 该点在 t+ d t 上移至
f (x + dx , y + dy ) , f (x , y , t) = f (x + dx , y + dy ,
t+ d t). 当变化是连续的, 而且两帧间的时间间隔
d t→0, 由泰勒级数展开可得到: 5 f5x dxd t + 5 f5y dyd t + 5 f5 t
= 0, u= dxd t , v =
dy
d t. 特征部件的光流场如图 2. 用光
流特征作为特征向量, 对光照均匀程度的鲁棒性较
强, 只要光照在同一组序列中强度不变, 提取的特征
就是稳定的, 克服了图像处理比较敏感的问题.
6 基于 KL 变换的特征选择
对各个表情区域的运动向量, 我们要采用较少
数量的特征对样本进行描述以降低特征空间维数,
并去掉各特征分量间的相关性. 这种方法的基础是
Karhunen2L oève 展开式: x ( t ) = ∑∞
n= 1
rnx n
论文 ]. 哈尔滨工
业大学, 哈尔滨, 1997)
2 Gao W en, J in H ui. A nalysis and recogn ition of the facical
emo tional exp ressions. Ch inese Journal of Computers, 1997,
20 (9) : 782- 789 (in Ch inese)
(高 文, 金 辉. 面部表情的分析与识别. 计算机学报, 1997,
20 (9) : 782- 789)
3 M ase K. Recogn ition of facial exp ressions fo r op tical flow.
IE ICE T ransactions, Special Issue on Computer V ision and its
A pp lications, E, 1991, 74 (10) : 3474- 3483
4 L i H. Pertt i ro ivainen and robert fo rchheim er. 3_ D mo tion
estim ation in model based facial im age coding. IEEE
T ransactions on Pattern A nalysis and M ach ine In telligence,
1993, 15 (6) : 545- 555
5 Yacoob Y, D avis L. Computing spatio2tempo ral
rep resen tations of hum an faces. In P roceedings of the
Computer V ision and Pattern Recogn ition Conference, IEEE
Computer Society, 1994. 70- 75
6 Ro senb lum M , Yacoob Y, D avis L. H um an emo tion
recogn ition from mo tion using a radial basis function netwo rk
arch itectu re. In: P roceedings of the IEEE W o rk shop on
M o tion of N onrigid and A rticu lated O bjects, A ustin, TX,
1994. 43- 49
7 Peng A , H ayes M H. Iterative hum an facial exp ression
modeling. Schoo l of E lectrical and Computer Engineering
Geo rgia T ech, A tlan ta, GA : T echn ical Repo rt 3033220250,
1996, 479- 486
8 E ssa IA , Pen tland A P. Coding, analysis, in terp retation, and
recogn ition of facial exp ressions. M IT M edia L abo rato ry:
Percep tual Computing Section T echn ical Repo rt 325, 1995
9 W ang M ei, Iw ai Y, Yach ida M. Exp ression recogn ition from
tim e2sequen tial facial im ages by use of exp ression change
model. In: P roceedings of the 3rd In ternational Conference on
A utom atic Face and Gestu re Recogn ition, O SA KA , Japan,
1998. 324- 329
10 Sto rmonth K T. Zhang Yan2Yun translated. T he P sycho logy
of Emo tion. Shenyang: L iaon ing Peop le P ress, 1985 ( in
Ch inese)
(斯托曼 K T 著, 张燕云译. 情绪心理学. 沈阳: 辽宁人民出版
社, 1985)
11 Gao W en, Chen X i2L in. Computer V ision. Beijing: T singhua
U niversity P ress, 1999 (in Ch inese)
(高 文, 陈熙霖. 计算机视觉. 北京: 清华大学出版社, 1999)
12 B ian Zhao2Q i. Pattern Recogn ition. Beijing: T singhua
U niversity P ress, 1998 (in Ch inese)
(边肇祺. 模式识别. 北京: 清华大学出版社, 1998)
13 Rab iner L R. A tu to rial on h idden M arkov models and selected
app lications in speech recogn ition. P roceedings of the IEEE,
77 (2) : 263- 274
806 计 算 机 学 报 2000 年