基于Teager能量算子(TEO)非线性特征的语音情绪识别
基于Teager能量算子(TEO)非线性特征
的语音情绪识别
第18卷第6期
2005年I2月
航天医学与医学工程
SpaceMedicine&MedicalEngineering Vo1.18No.6
Det.2005
基于Teager能量算子(TEO)非线性特征的语音情绪识别
高慧,苏广川,陈善广
(1.航天医学工程研究所,北京100094;2.北京理工大学,北京100081) 米
摘要:目的探索识别汉语语音情绪的有效识别特征.方法采用基于Teager能量算子(TEO)的非线性
特征,通过马尔可夫模型法(HMM),从汉语语音中识别平静和生气,欢快,悲伤4种情绪.结果文本有
关时,5个非线性特征:基于频域TEO的Mel倒谱系数(nonlinearfrequencydomainMel,NFD—Me1),
基于幅频特性的Mel倒谱参数(amplitudeandfrequencypropertyMel,AF—Me1),基于微分幅频特性
的Mel倒谱参数(amplitudeandfrequencypropertyMelofdifferential,DAF—Me1),基于幅度调制的
子带倒谱参数(AM—basedSBCC,AM—SBCC)及基于幅频调制的子带倒谱参数(AMFM—basedSBCC,
AMFM—
SBCC)的情绪识别性能全部高于Mel频率倒谱参数(Mel—scaledcepstrumcoefficients.MF—
CC).文本无关时,NFD—Mel,AF—Mel,DAF—Mel的识别率高于MFCC,AM—
SBCC,AMFM—
SBCC的
情绪识别率低于MFCC.结论结合非线性TEO的识别特征NFD—Mel,AF—
Mel,DAF—Mel可有效提高
情绪识别性能.
关键词:语音;情绪;识别;Teager能量算子
中图分类号:TP391.42文献标识码:A文章编号:1002—0837(2005)06—0427—05
EmotionRecognitionofMandarinst,eechUsingNonlinearFeaturesBasedonTeagerEnergyOperator
(TE0).GAOHui,SUGuang—chuan,CHENShan—
guang.SpaceMedicine&MedicalEngineering.
2005,18(6):427,431
Abstract:ObjectiveTostudyeffectivefeaturesofmandarinspeechwhichrepresentdifferentemo.
t~onsinspeech.MethodUsingnonlinearfeaturesbasedonTeagerenergyoperatorfTEO)and adoptinghiddenmarkovmodel(HMM)recognizingmethod.neutralstateand3emotionalstatus(
happlness,angerandsadness)wererecognIzedfrOmthemandarinspeechdatabase.Resultln comparisonwithMel—scaledcepstrumcoefficients(MFCC).whiletext—
dependent.improvements
ofrecognitioncapacitywereobtainedwhenusingall5nonlinearfeatures:nonlinearfrequencydo—
mainMel(NFD—Me1),amplitudeandfrequencypropertyMel(AF—
Me1),amplitudeandfrequency
propertyMelofdifferential(DAF—Me1),AM—
basedSBCC(AMSBCC)andAMFM.basedSBCC
(AMFM—SBCC).Whiletext—
independent.theperformanceofemotionrecognitionwasimproved
byusingNFD—
Mel,AF—
MelandDAF—
Mel,butdeterioratedbyusingAM—
SBCCandAMFM—
SB—
CC.ConclusionTheresultsofrecognitiondemonstratedthatthenonlinearfeaturesbasedon
TEO.
whenusingNFD—
MeJ,AF—
MeIandDAF—
MeJ,canjncreaseemotionrecognitioncapacity.
Keywords:speech;emotion;recognition;Teagerenergyoperator
Addressreprintrequeststo:GAOHui.InstituteofSpaceMedico—
Engineering.Beijing100094.China 众所周知,言语
情是人类特有的表达情绪
的重要手段,它与面部表情和肢体表情一起,成为
辅助言语交际的工具.因此,话语中不仅包含了
文字符号信息,也包含人们的特定的情绪心理特
征.而传统的语音处理系统往往着眼于文字内容
传达的准确性,忽略了心理特征研究.近年来,随
着人机自然交互,航天航空心理监测,智能机器人
等诸多领域的应用需要,针对语音信号
辩识
其中的情绪特征成为语音处理领域的一个新的研 究热点.目前国际上研究最多的是英语,国内近
几年也开展了汉语普通话的情绪研究,各国学者
收稿日期:2005一O1—23
通讯作者:高慧gaohui0@sohucom 基金项目:中国载人航天工程项目资助
从语音工程学角度研究情绪心理因素,已取得了 令人鼓舞的研究成果?J.
语音识别多数研究集中在"whatwassaid" 和"whowassaid"的语音内容识别和说话人辩 识上,"howwassaid"研究相对较少,语音的情 绪识别属于该范畴.语音情绪识别关键是一方面 找到最有效的携带情绪因素的特征,另一方面是 开发最有效的识别算法.本文主要探索针对汉语 语音有效的情绪识别特征,识别方法采用隐马尔 可夫模型法(即HMM法).目前,情绪识别的特 征选择以基频,能量,时长及衍生的参数居多,此 外还有Mel频域参数(MFCC),LPC参数等特 征.在众多研究文献中有少数采用非线性特征进 行研究,并有优于线性特征的研究成果J.为
428航天医学与医学工程第l8卷
此eager能量算子(Teagerenergy ,本文运用T
operator,TEO),从非线性角度对识别特征进行 研究,以探索基于TEO的非线性特征对汉语语音 情绪识别的有效性.
方法
汉语情绪语料
本文的汉语情绪语料采用天地通信时常用的 10条短句,每条短句有2至5音节不等.这些语 句语义中性,并且是口语化的陈述句.在对情绪 类型的选择上,从心理学角度和工程处理的角度 都有各种不同划分方法,目前国内外还没有统一 的
,本文结合国内已有的研究经验,选择生 气,欢快,悲伤3种情绪进行模拟,它们的共同特
点是复杂程度低,常常紧张性高,便于模拟. 情绪语料录音试验在隔声室内完成,选用2 名女性被试者,年龄33,40岁,发音标准,无方言 和口音.在录音前被要求默读录音语句,同时通 过联想酝酿不同的情绪状态,然后再饱含感情地 朗读.语料通过头戴式话筒和SoundBlaster声 卡录制在微机上.录音语料再由其他5名被试者 (3名女性,2名男性,听力正常)进行听辨,主观 评判播放语音的情绪状态.通过评判结果,对情 绪类型判别不一致的语句进行删除和重新录制. 每种情绪各录制20遍,情绪语料共1600句. 特征提取
在对语音的情绪识别中,首先要寻找最有效 的携带情绪信息的语音特征参数.本文从语音生 成的机制人手,根据现有的涡流非线性理论和目 前已成熟的线性理论,采用非线性能量算子与传 统语音分析参数相结合的方法,探索有效的情绪 识别特征.
基于TEO的非线性理论语音生成物理模 型是把声道看作一根不均匀的管子,线性语音分 析假设沿管轴方向传播平面波.基于TEO的非 线性理论则认为,当气流通过声带和伪声带区域 会出现气流的分离,附着,形成涡流,与平面波一 起构成语音生成的原因,而且是非线性的.这一 观点为流体力学理论所支持,并可由Navier- Stocks等式在数学上模拟J.根据上述理论, Teager通过工程化处理,提出了一种能够反映涡 流非线性作用的能量算子一TEO.离散形式的 Teager能量算子运算公式J:
[s(n)]=s(n)一s(n+1)s(n一1)(1)
信号s(n)在n点的TEO只与该样本点和它 前后各一个样本点有关,运算非常简单.对于受 情绪影响的语音,根据非线性理论,声激励源的变 化必然来自线性和非线性成分,因此,将非线性的 TEO引入识别的特征参数,可以从线性和非线性 两个角度研究不同情绪影响下的语音变化,从而 更好地识别语音中的情绪.
基于频域TEO的Yel倒谱系数TinLay New在对应激语音(stressedspeech)的研究 中,采用基于频域TEO的非线性特征,用于识别 不同应激(stress)条件下的语音.本文首先选用 它作为研究对象.由情绪语音特征分析结果可 知?,与平静时的语音相比,不同情绪下,能量会 在不同频段上偏移,使得主要的能量在不同情绪
这种能量分布的差异经 下集中在不同的频段上,
过TEO变换后会更为明显.且有研究表明,在语 音信号的频域中,语音信号的谱峰信息(peaks) 要比谱谷(valleys)信息对语音的感知贡献更 大…,因此基于频域的TEO非线性变换会使能 量高时的谱峰信息得到强调,使不同情绪间的语 音谱能量差异更加明显,使识别时系统更好区分. NFD—Mel的实现过程如图1所示,首先对情绪语 音信号预加重,分帧,加哈明窗;再对每帧采样点 进行FFT(256点),计算功率谱值S(i);对功率谱 各点计算TEO:
[5()]:S()一5(i+1)S(i一1)i=1,
2,…,]28(2)
对经TEO变换后的谱值进行Mel频域带通
滤波(滤波器个数为21);对Mel频域滤波器组 的输出求自然对数和离散余弦变换(DCT),从而 得到特征NFD—Mel.
基于幅频特性的Yel倒谱参数和基于微分 幅频特性的Mel倒谱特征与一般的能量运算 不同,对于幅度和频率缓变的带通信号(t),表 征信号及其微分的瞬时能量TEO是一个不仅与 信号幅度o(t)有关,而且与频率?(t)有关的 量?:
[(t)]一.(t)一?(t)
[(t)].(t)一?(t)
(3)
(4)
第6期高慧,等.基于Teager能量算子(TEO)非线性特征的语音情绪识别429
taking
flames
hcale
filterbankslnh/1" 图1NFD—Mel特征提取过程
Fig.1NFD_
Melfeatureextraction tak
…ing}=m}=f2.}=Mel 图2AF—Mel特征提取过程
Fig.2AF——
Melfeatureextraction 在不同情绪的影响下,语音的幅度和频率信 息会发生改变,瞬时能量TEO也会随之变化.因
此在频域计算对应的频谱强度与对应频率的积, 来研究非线性瞬时能量TEO的变化,该特征称为 AF—Mel.由于在生气和欢快情绪中会有呼吸声, 这些声音通常能量低但对应频段高,同时一些辅 音也有类似特点.传统的能量概念由于只考虑信 号的幅度,对于幅度低频率高的呼吸声和辅音则 有所忽略,而AF—Mel特征即考虑幅度又考虑频 率,因而会提高呼吸声和辅音在情绪识别的贡献. AF—
Mel特征提取过程见图2,语音的预处理同前 一
特征,之后对每帧信号FFT得到功率谱值s (i),同时计算功率谱各点对应的频率值f(i),并 由该点强度与频率乘积的平方得到AF(i): AF(i)=.厂(i)?S(i),i=1,2,…,128(5) 然后再按Mel频域划分,并求对数和离散余 弦变换得到AF—Mel.
与AF—Mel特征的思路类似,可以通过对频 域的运算来研究信号微分后的TEO变化情况,即 通过频谱的平方与对应频率的4次方乘积,得到 情绪识别特征DAF—Mel.实现方法同AF—Mel 类似,唯一区别是在得到功率谱后,计算DAF(i): DAF(i)=.厂(i)?S(i),i=1,2,…,128(6) 基于幅度调制的子带倒谱参数和基于幅频调 制的子带倒谱参数根据人耳对中低频的分辨 力高于高频的听觉特点,以及基频和共振峰的变 化是体现情绪状态的重要声学参数?,本文采用 小波分析中的多分辨率思想,结合TEO进一步研 究有效的非线性情绪识别特征.
使用小波包分解模拟人耳频率分析机制,将 情绪语音的低频段细分,高频段粗分.频域划分 通过6尺度小波包分解实现,小波基
选用 Daubechies一4,将语音信号分解在21个子带上, 它与Mel频域划分对比见图3.
3k4k
2k3k4k
?Hz
图3Mel频率划分与小波包频域分解
Fig.3SubbanddecompositionofMelscaleandofwave-
letpackets
a.waveletpacketsdecomposition;b.Melscaledecom— position
通过小波包分解将情绪语音信号分解到21 个子带上,根据TEO非线性理论,对于每个窄带 时域信号可看作是AM—FM信号,由情绪语音的 明亮度分析可知,各种情绪频域能量集中区域 不同,因此不同情绪信号各频段能量分布必然有 差异,它的瞬时幅度也会不同.通过能量分离算 法(digitalenergyseparationalgorithm1,
DESA1)?对子带信号分解,求出时变幅度的变 化,可研究不同情绪下,语音各个频段内的幅度变 化细节,得到AM—SBCC参数.
与AM—SBCC思路类似,小波包分解后,不 仅研究子带信号时变幅度同时还研究瞬时频率, 从幅度和频率两方面变化细节来识别情绪.通过 DESA1分解得到瞬时频率的改变,与AM—SBCC 结合形成特征参数AMFM—SBCC.两参数的实 现过程见图4,预处理同前,对每帧信号进行6尺
度db4小波包分解,将信号分解到21个子带上, 计算各子带信号的TEO;通过DESA1算法分解 得到各子带的时变幅度AM和瞬时频率FMi,(i =
1,2….,21),求均值;对每个子带的平均幅值
和平均频率求自然对数和离散余弦变换,单独幅 度变换值构成AM—SBCC,加入瞬时频率信息得 到AMFM—SBCC.
语音情绪识别方法
为方便研究非线性特征参数对语音情绪识别 的有效性,需要建立一个语音情绪识别基线系统.
第6期高慧,等.基于Teager能量算子(TEO)非线性特征的语音情绪识别431
了文本内容对情绪识别的影响,而文本无关时文 本信息的发散对HMM模型的训练造成干扰,从 而降低了识别率.
2)在各组情绪特征中,与文本有关时,非线
性特征的识别率都高于MFCC,情绪识别率由高 至0低{{}歹0,分另0是AF—Mel,NFD—Mel,DAF—Mel, AM—
SBCC,AMFM—SBCC,识别率各提高6.1%, 5.6%,4.9%,4.5%,1.2%.文本无关时与MF— CC相比,NFD—Mel,DAF—Mel,AF—Mel的识另0性 能分别提高2.4%,1.7%,1.6%,AM—SBCC, AMFM—SBCC识别性能分别降低6.0%,5.8%. 根据上述结果可以看出,非线性识别特征中NFD —
Mel,AF—
Mel的情绪识别性能最好,文本无关
时,非线性特征AM—SBCC和AMFM—SBCC识 别性能低于MFCC.
3)各种情绪特征的识别性能对于某些情绪 的识别具有特异性:文本有关时,各个特征对平静 的识别率都低于MFCC,而识别欢快和生气时,识 别率都高于MFCC,对于悲伤的识别NFD—Mel, AF—
Mel,DAF—
Mel,AM—SBCC有优于MFCC的
识别性能.文本无关时,各个特征对欢快的识别 性能好于MFCC,NFD—Mel,AF—Mel,DAF—Mel 对平静的识别率高,NFD—Mel,DAF—Mel对生气 的识别率高,AM—SBCC,AMFM—SBCC对悲伤 的识别率高.
讨论
由于航天,航空心理监测和人机自然交互应 用的需要,通过语音信号识别情绪的研究近几年 受到各国学者的重视的识别,但对于识别语音中 的感性信息的识别是一项难度较大的课
,由于 许多理论还不成熟,因此目前尚属起步阶段.语 音情绪识别的关键是首先找出可有效体现情绪心 理状态的特征.本文针对一套小规模的汉语情绪 语料,在已有的非线性特征研究成果基础上,采用 基于TEO的非线性理论,并结合小波分析的多分 辨率思想对此做了探索和尝试.采用HMM作 为识别方法,与MFCC识别特征相比,文本有关 时,非线性特征的识别性能全部高于MFCC.在
更为复杂的文本无关情况下,通过建立合适的
HMM拓扑结构,5个非线性特征中的NFD—Mel,
AF—
Mel,DAF—Mel识别性能仍高于MFCC.AM
—
SBCC,AMFM—
SBCC的情绪识别率则降低,说
明非线性特征中NFD—Mel,AF—Mel,DAF—Mel
的识别性能好于AM—SBCC,AMFM—SBCC.
本文从基于TEO的非线性特征人手,对汉语
语音的情绪识别做了初步尝试.今后还可进一步
尝试利用生理指标来辅助监测和识别说话人情
绪,如采用皮肤电阻(GSR),血压,心率和呼吸量
等参数,以及采用面部表情特征相结合方式,从多
方面多角度识别人的情绪.
l参考文献I
『1]StreeterLA,MacdonaldNH,AppleW,eta1.Acoustic andperceptuaIindicatorsofemotionaIstressJ1.The JournaIoftheAcousticSocietyofAmerica.1983.73 (4):1354—1360.
『2]MurrayIR.ArnottJL.Towardsthesimulationofemo—
tioninsyntheticspeech:areviewoftheIiteratureof humanvocaIemotionJJournaIofAcousticSociety ofAmerica,1993.93(2):1097—1198.
[3]PicardRwAffectiveComputing[M]Cambridge:The MITPress.1997141—192
[4]ZhaoLi,QianXiangmin,ZouCairong,etalAstudyon emotionalfeatureanalysisandrecognitioninspeech signaI『J]JournaIofChinaInstituteofCommunIca—
tions.20oO,21(10):18—24
『5]ZhouGJ,HansenJHL,KaiserJFClassificationof speechunderstressbasedonfeaturesderivedfrOmthe nonlinearTeagerenergyoperator『C]IEEEInterna—
tionaIConferenceonAcoustics.Speech.andSignaIPro—
cessing.Seattle.1998.549—552
61FernandezR,PicardRW.Modelingdriver'sspeech understressIEB]theISCAWorkshoponSpeechand Emotion,2000;
ceedings/2002.4.
『7]TeagerHM,TeagerSMSomeobservationsonoraIair flowduringphonation『C]JEEEJnternationalConfer—
enceonAcoustics,Speech,andSignalProcessing, 1980.ASSP一28(5):599.601
『8]KaiserJFOnasimplealgorithmtocalculatethe'Ener—
gv'ofasignal『C1.』EEE』nternationaIConferenceon
Acoustics,Speech,andSignalProcessing,Albuquerque, 1990381—384
[9]TinLayNwe,SayWeiFoo,LiyayanageC,etalClassi—
ficationofstressinspeechusingIinearandnonlinear features『C].IEEEInternationalConferenceonAcous—
tics,Speech,andSignalProcessing,HongKong,2003, l】:9—12
[1O]GAOHui,SuGuangchuan,CHENShanguangEmotion recognitionofmandarinspeechbasedonTEOnonlinear features[J]SpaceMedicine&MedicalEngineering, 2005.18(5):350—354.
『11]StropeB,A1wanAAmodeIofdynamicauditoryper- ceptionanditsapplicationinrobustwordrecognition
『C].JEEEJnternationalConferenceonAcoustics. Speech,andSignalProcessing,Atlanta,1996,I:3740. [12]MaragosP,KaiserJ,QuatieriTOnseparatingampli—
tudetrOmfrequencymodulationsusingenergyopera—
tors『C].1EEE』nternationalConferenceonAcoustics. Speech,andSignaIProcessing,SanFrancisco,1992,JJ: 1—4.
[作者简介:高慧,女,博士研究生,助理研究员,研究方向数字信
号处理]