为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > 基于Teager能量算子(TEO)非线性特征的语音情绪识别

基于Teager能量算子(TEO)非线性特征的语音情绪识别

2018-02-19 13页 doc 33KB 59阅读

用户头像

is_215732

暂无简介

举报
基于Teager能量算子(TEO)非线性特征的语音情绪识别基于Teager能量算子(TEO)非线性特征的语音情绪识别 基于Teager能量算子(TEO)非线性特征 的语音情绪识别 第18卷第6期 2005年I2月 航天医学与医学工程 SpaceMedicine&MedicalEngineering Vo1.18No.6 Det.2005 基于Teager能量算子(TEO)非线性特征的语音情绪识别 高慧,苏广川,陈善广 (1.航天医学工程研究所,北京100094;2.北京理工大学,北京100081) 米 摘要:目的探索识别汉语语音情绪的有效识别特征.方法采用...
基于Teager能量算子(TEO)非线性特征的语音情绪识别
基于Teager能量算子(TEO)非线性特征的语音情绪识别 基于Teager能量算子(TEO)非线性特征 的语音情绪识别 第18卷第6期 2005年I2月 航天医学与医学工程 SpaceMedicine&MedicalEngineering Vo1.18No.6 Det.2005 基于Teager能量算子(TEO)非线性特征的语音情绪识别 高慧,苏广川,陈善广 (1.航天医学工程研究所,北京100094;2.北京理工大学,北京100081) 米 摘要:目的探索识别汉语语音情绪的有效识别特征.方法采用基于Teager能量算子(TEO)的非线性 特征,通过马尔可夫模型法(HMM),从汉语语音中识别平静和生气,欢快,悲伤4种情绪.结果文本有 关时,5个非线性特征:基于频域TEO的Mel倒谱系数(nonlinearfrequencydomainMel,NFD—Me1), 基于幅频特性的Mel倒谱参数(amplitudeandfrequencypropertyMel,AF—Me1),基于微分幅频特性 的Mel倒谱参数(amplitudeandfrequencypropertyMelofdifferential,DAF—Me1),基于幅度调制的 子带倒谱参数(AM—basedSBCC,AM—SBCC)及基于幅频调制的子带倒谱参数(AMFM—basedSBCC, AMFM— SBCC)的情绪识别性能全部高于Mel频率倒谱参数(Mel—scaledcepstrumcoefficients.MF— CC).文本无关时,NFD—Mel,AF—Mel,DAF—Mel的识别率高于MFCC,AM— SBCC,AMFM— SBCC的 情绪识别率低于MFCC.结论结合非线性TEO的识别特征NFD—Mel,AF— Mel,DAF—Mel可有效提高 情绪识别性能. 关键词:语音;情绪;识别;Teager能量算子 中图分类号:TP391.42文献标识码:A文章编号:1002—0837(2005)06—0427—05 EmotionRecognitionofMandarinst,eechUsingNonlinearFeaturesBasedonTeagerEnergyOperator (TE0).GAOHui,SUGuang—chuan,CHENShan— guang.SpaceMedicine&MedicalEngineering. 2005,18(6):427,431 Abstract:ObjectiveTostudyeffectivefeaturesofmandarinspeechwhichrepresentdifferentemo. t~onsinspeech.MethodUsingnonlinearfeaturesbasedonTeagerenergyoperatorfTEO)and adoptinghiddenmarkovmodel(HMM)recognizingmethod.neutralstateand3emotionalstatus( happlness,angerandsadness)wererecognIzedfrOmthemandarinspeechdatabase.Resultln comparisonwithMel—scaledcepstrumcoefficients(MFCC).whiletext— dependent.improvements ofrecognitioncapacitywereobtainedwhenusingall5nonlinearfeatures:nonlinearfrequencydo— mainMel(NFD—Me1),amplitudeandfrequencypropertyMel(AF— Me1),amplitudeandfrequency propertyMelofdifferential(DAF—Me1),AM— basedSBCC(AMSBCC)andAMFM.basedSBCC (AMFM—SBCC).Whiletext— independent.theperformanceofemotionrecognitionwasimproved byusingNFD— Mel,AF— MelandDAF— Mel,butdeterioratedbyusingAM— SBCCandAMFM— SB— CC.ConclusionTheresultsofrecognitiondemonstratedthatthenonlinearfeaturesbasedon TEO. whenusingNFD— MeJ,AF— MeIandDAF— MeJ,canjncreaseemotionrecognitioncapacity. Keywords:speech;emotion;recognition;Teagerenergyoperator Addressreprintrequeststo:GAOHui.InstituteofSpaceMedico— Engineering.Beijing100094.China 众所周知,言语情是人类特有的表达情绪 的重要手段,它与面部表情和肢体表情一起,成为 辅助言语交际的工具.因此,话语中不仅包含了 文字符号信息,也包含人们的特定的情绪心理特 征.而传统的语音处理系统往往着眼于文字内容 传达的准确性,忽略了心理特征研究.近年来,随 着人机自然交互,航天航空心理监测,智能机器人 等诸多领域的应用需要,针对语音信号辩识 其中的情绪特征成为语音处理领域的一个新的研 究热点.目前国际上研究最多的是英语,国内近 几年也开展了汉语普通话的情绪研究,各国学者 收稿日期:2005一O1—23 通讯作者:高慧gaohui0@sohucom 基金项目:中国载人航天工程项目资助 从语音工程学角度研究情绪心理因素,已取得了 令人鼓舞的研究成果?J. 语音识别多数研究集中在"whatwassaid" 和"whowassaid"的语音内容识别和说话人辩 识上,"howwassaid"研究相对较少,语音的情 绪识别属于该范畴.语音情绪识别关键是一方面 找到最有效的携带情绪因素的特征,另一方面是 开发最有效的识别算法.本文主要探索针对汉语 语音有效的情绪识别特征,识别方法采用隐马尔 可夫模型法(即HMM法).目前,情绪识别的特 征选择以基频,能量,时长及衍生的参数居多,此 外还有Mel频域参数(MFCC),LPC参数等特 征.在众多研究文献中有少数采用非线性特征进 行研究,并有优于线性特征的研究成果J.为 428航天医学与医学工程第l8卷 此eager能量算子(Teagerenergy ,本文运用T operator,TEO),从非线性角度对识别特征进行 研究,以探索基于TEO的非线性特征对汉语语音 情绪识别的有效性. 方法 汉语情绪语料 本文的汉语情绪语料采用天地通信时常用的 10条短句,每条短句有2至5音节不等.这些语 句语义中性,并且是口语化的陈述句.在对情绪 类型的选择上,从心理学角度和工程处理的角度 都有各种不同划分方法,目前国内外还没有统一 的,本文结合国内已有的研究经验,选择生 气,欢快,悲伤3种情绪进行模拟,它们的共同特 点是复杂程度低,常常紧张性高,便于模拟. 情绪语料录音试验在隔声室内完成,选用2 名女性被试者,年龄33,40岁,发音标准,无方言 和口音.在录音前被要求默读录音语句,同时通 过联想酝酿不同的情绪状态,然后再饱含感情地 朗读.语料通过头戴式话筒和SoundBlaster声 卡录制在微机上.录音语料再由其他5名被试者 (3名女性,2名男性,听力正常)进行听辨,主观 评判播放语音的情绪状态.通过评判结果,对情 绪类型判别不一致的语句进行删除和重新录制. 每种情绪各录制20遍,情绪语料共1600句. 特征提取 在对语音的情绪识别中,首先要寻找最有效 的携带情绪信息的语音特征参数.本文从语音生 成的机制人手,根据现有的涡流非线性理论和目 前已成熟的线性理论,采用非线性能量算子与传 统语音分析参数相结合的方法,探索有效的情绪 识别特征. 基于TEO的非线性理论语音生成物理模 型是把声道看作一根不均匀的管子,线性语音分 析假设沿管轴方向传播平面波.基于TEO的非 线性理论则认为,当气流通过声带和伪声带区域 会出现气流的分离,附着,形成涡流,与平面波一 起构成语音生成的原因,而且是非线性的.这一 观点为流体力学理论所支持,并可由Navier- Stocks等式在数学上模拟J.根据上述理论, Teager通过工程化处理,提出了一种能够反映涡 流非线性作用的能量算子一TEO.离散形式的 Teager能量算子运算公式J: [s(n)]=s(n)一s(n+1)s(n一1)(1) 信号s(n)在n点的TEO只与该样本点和它 前后各一个样本点有关,运算非常简单.对于受 情绪影响的语音,根据非线性理论,声激励源的变 化必然来自线性和非线性成分,因此,将非线性的 TEO引入识别的特征参数,可以从线性和非线性 两个角度研究不同情绪影响下的语音变化,从而 更好地识别语音中的情绪. 基于频域TEO的Yel倒谱系数TinLay New在对应激语音(stressedspeech)的研究 中,采用基于频域TEO的非线性特征,用于识别 不同应激(stress)条件下的语音.本文首先选用 它作为研究对象.由情绪语音特征分析结果可 知?,与平静时的语音相比,不同情绪下,能量会 在不同频段上偏移,使得主要的能量在不同情绪 这种能量分布的差异经 下集中在不同的频段上, 过TEO变换后会更为明显.且有研究表明,在语 音信号的频域中,语音信号的谱峰信息(peaks) 要比谱谷(valleys)信息对语音的感知贡献更 大…,因此基于频域的TEO非线性变换会使能 量高时的谱峰信息得到强调,使不同情绪间的语 音谱能量差异更加明显,使识别时系统更好区分. NFD—Mel的实现过程如图1所示,首先对情绪语 音信号预加重,分帧,加哈明窗;再对每帧采样点 进行FFT(256点),计算功率谱值S(i);对功率谱 各点计算TEO: [5()]:S()一5(i+1)S(i一1)i=1, 2,…,]28(2) 对经TEO变换后的谱值进行Mel频域带通 滤波(滤波器个数为21);对Mel频域滤波器组 的输出求自然对数和离散余弦变换(DCT),从而 得到特征NFD—Mel. 基于幅频特性的Yel倒谱参数和基于微分 幅频特性的Mel倒谱特征与一般的能量运算 不同,对于幅度和频率缓变的带通信号(t),表 征信号及其微分的瞬时能量TEO是一个不仅与 信号幅度o(t)有关,而且与频率?(t)有关的 量?: [(t)]一.(t)一?(t) [(t)].(t)一?(t) (3) (4) 第6期高慧,等.基于Teager能量算子(TEO)非线性特征的语音情绪识别429 taking flames hcale filterbankslnh/1" 图1NFD—Mel特征提取过程 Fig.1NFD_ Melfeatureextraction tak …ing}=m}=f2.}=Mel 图2AF—Mel特征提取过程 Fig.2AF—— Melfeatureextraction 在不同情绪的影响下,语音的幅度和频率信 息会发生改变,瞬时能量TEO也会随之变化.因 此在频域计算对应的频谱强度与对应频率的积, 来研究非线性瞬时能量TEO的变化,该特征称为 AF—Mel.由于在生气和欢快情绪中会有呼吸声, 这些声音通常能量低但对应频段高,同时一些辅 音也有类似特点.传统的能量概念由于只考虑信 号的幅度,对于幅度低频率高的呼吸声和辅音则 有所忽略,而AF—Mel特征即考虑幅度又考虑频 率,因而会提高呼吸声和辅音在情绪识别的贡献. AF— Mel特征提取过程见图2,语音的预处理同前 一 特征,之后对每帧信号FFT得到功率谱值s (i),同时计算功率谱各点对应的频率值f(i),并 由该点强度与频率乘积的平方得到AF(i): AF(i)=.厂(i)?S(i),i=1,2,…,128(5) 然后再按Mel频域划分,并求对数和离散余 弦变换得到AF—Mel. 与AF—Mel特征的思路类似,可以通过对频 域的运算来研究信号微分后的TEO变化情况,即 通过频谱的平方与对应频率的4次方乘积,得到 情绪识别特征DAF—Mel.实现方法同AF—Mel 类似,唯一区别是在得到功率谱后,计算DAF(i): DAF(i)=.厂(i)?S(i),i=1,2,…,128(6) 基于幅度调制的子带倒谱参数和基于幅频调 制的子带倒谱参数根据人耳对中低频的分辨 力高于高频的听觉特点,以及基频和共振峰的变 化是体现情绪状态的重要声学参数?,本文采用 小波分析中的多分辨率思想,结合TEO进一步研 究有效的非线性情绪识别特征. 使用小波包分解模拟人耳频率分析机制,将 情绪语音的低频段细分,高频段粗分.频域划分 通过6尺度小波包分解实现,小波基选用 Daubechies一4,将语音信号分解在21个子带上, 它与Mel频域划分对比见图3. 3k4k 2k3k4k ?Hz 图3Mel频率划分与小波包频域分解 Fig.3SubbanddecompositionofMelscaleandofwave- letpackets a.waveletpacketsdecomposition;b.Melscaledecom— position 通过小波包分解将情绪语音信号分解到21 个子带上,根据TEO非线性理论,对于每个窄带 时域信号可看作是AM—FM信号,由情绪语音的 明亮度分析可知,各种情绪频域能量集中区域 不同,因此不同情绪信号各频段能量分布必然有 差异,它的瞬时幅度也会不同.通过能量分离算 法(digitalenergyseparationalgorithm1, DESA1)?对子带信号分解,求出时变幅度的变 化,可研究不同情绪下,语音各个频段内的幅度变 化细节,得到AM—SBCC参数. 与AM—SBCC思路类似,小波包分解后,不 仅研究子带信号时变幅度同时还研究瞬时频率, 从幅度和频率两方面变化细节来识别情绪.通过 DESA1分解得到瞬时频率的改变,与AM—SBCC 结合形成特征参数AMFM—SBCC.两参数的实 现过程见图4,预处理同前,对每帧信号进行6尺 度db4小波包分解,将信号分解到21个子带上, 计算各子带信号的TEO;通过DESA1算法分解 得到各子带的时变幅度AM和瞬时频率FMi,(i = 1,2….,21),求均值;对每个子带的平均幅值 和平均频率求自然对数和离散余弦变换,单独幅 度变换值构成AM—SBCC,加入瞬时频率信息得 到AMFM—SBCC. 语音情绪识别方法 为方便研究非线性特征参数对语音情绪识别 的有效性,需要建立一个语音情绪识别基线系统. 第6期高慧,等.基于Teager能量算子(TEO)非线性特征的语音情绪识别431 了文本内容对情绪识别的影响,而文本无关时文 本信息的发散对HMM模型的训练造成干扰,从 而降低了识别率. 2)在各组情绪特征中,与文本有关时,非线 性特征的识别率都高于MFCC,情绪识别率由高 至0低{{}歹0,分另0是AF—Mel,NFD—Mel,DAF—Mel, AM— SBCC,AMFM—SBCC,识别率各提高6.1%, 5.6%,4.9%,4.5%,1.2%.文本无关时与MF— CC相比,NFD—Mel,DAF—Mel,AF—Mel的识另0性 能分别提高2.4%,1.7%,1.6%,AM—SBCC, AMFM—SBCC识别性能分别降低6.0%,5.8%. 根据上述结果可以看出,非线性识别特征中NFD — Mel,AF— Mel的情绪识别性能最好,文本无关 时,非线性特征AM—SBCC和AMFM—SBCC识 别性能低于MFCC. 3)各种情绪特征的识别性能对于某些情绪 的识别具有特异性:文本有关时,各个特征对平静 的识别率都低于MFCC,而识别欢快和生气时,识 别率都高于MFCC,对于悲伤的识别NFD—Mel, AF— Mel,DAF— Mel,AM—SBCC有优于MFCC的 识别性能.文本无关时,各个特征对欢快的识别 性能好于MFCC,NFD—Mel,AF—Mel,DAF—Mel 对平静的识别率高,NFD—Mel,DAF—Mel对生气 的识别率高,AM—SBCC,AMFM—SBCC对悲伤 的识别率高. 讨论 由于航天,航空心理监测和人机自然交互应 用的需要,通过语音信号识别情绪的研究近几年 受到各国学者的重视的识别,但对于识别语音中 的感性信息的识别是一项难度较大的课,由于 许多理论还不成熟,因此目前尚属起步阶段.语 音情绪识别的关键是首先找出可有效体现情绪心 理状态的特征.本文针对一套小规模的汉语情绪 语料,在已有的非线性特征研究成果基础上,采用 基于TEO的非线性理论,并结合小波分析的多分 辨率思想对此做了探索和尝试.采用HMM作 为识别方法,与MFCC识别特征相比,文本有关 时,非线性特征的识别性能全部高于MFCC.在 更为复杂的文本无关情况下,通过建立合适的 HMM拓扑结构,5个非线性特征中的NFD—Mel, AF— Mel,DAF—Mel识别性能仍高于MFCC.AM — SBCC,AMFM— SBCC的情绪识别率则降低,说 明非线性特征中NFD—Mel,AF—Mel,DAF—Mel 的识别性能好于AM—SBCC,AMFM—SBCC. 本文从基于TEO的非线性特征人手,对汉语 语音的情绪识别做了初步尝试.今后还可进一步 尝试利用生理指标来辅助监测和识别说话人情 绪,如采用皮肤电阻(GSR),血压,心率和呼吸量 等参数,以及采用面部表情特征相结合方式,从多 方面多角度识别人的情绪. l参考文献I 『1]StreeterLA,MacdonaldNH,AppleW,eta1.Acoustic andperceptuaIindicatorsofemotionaIstressJ1.The JournaIoftheAcousticSocietyofAmerica.1983.73 (4):1354—1360. 『2]MurrayIR.ArnottJL.Towardsthesimulationofemo— tioninsyntheticspeech:areviewoftheIiteratureof humanvocaIemotionJJournaIofAcousticSociety ofAmerica,1993.93(2):1097—1198. [3]PicardRwAffectiveComputing[M]Cambridge:The MITPress.1997141—192 [4]ZhaoLi,QianXiangmin,ZouCairong,etalAstudyon emotionalfeatureanalysisandrecognitioninspeech signaI『J]JournaIofChinaInstituteofCommunIca— tions.20oO,21(10):18—24 『5]ZhouGJ,HansenJHL,KaiserJFClassificationof speechunderstressbasedonfeaturesderivedfrOmthe nonlinearTeagerenergyoperator『C]IEEEInterna— tionaIConferenceonAcoustics.Speech.andSignaIPro— cessing.Seattle.1998.549—552 61FernandezR,PicardRW.Modelingdriver'sspeech understressIEB]theISCAWorkshoponSpeechand Emotion,2000; ceedings/2002.4. 『7]TeagerHM,TeagerSMSomeobservationsonoraIair flowduringphonation『C]JEEEJnternationalConfer— enceonAcoustics,Speech,andSignalProcessing, 1980.ASSP一28(5):599.601 『8]KaiserJFOnasimplealgorithmtocalculatethe'Ener— gv'ofasignal『C1.』EEE』nternationaIConferenceon Acoustics,Speech,andSignalProcessing,Albuquerque, 1990381—384 [9]TinLayNwe,SayWeiFoo,LiyayanageC,etalClassi— ficationofstressinspeechusingIinearandnonlinear features『C].IEEEInternationalConferenceonAcous— tics,Speech,andSignalProcessing,HongKong,2003, l】:9—12 [1O]GAOHui,SuGuangchuan,CHENShanguangEmotion recognitionofmandarinspeechbasedonTEOnonlinear features[J]SpaceMedicine&MedicalEngineering, 2005.18(5):350—354. 『11]StropeB,A1wanAAmodeIofdynamicauditoryper- ceptionanditsapplicationinrobustwordrecognition 『C].JEEEJnternationalConferenceonAcoustics. Speech,andSignalProcessing,Atlanta,1996,I:3740. [12]MaragosP,KaiserJ,QuatieriTOnseparatingampli— tudetrOmfrequencymodulationsusingenergyopera— tors『C].1EEE』nternationalConferenceonAcoustics. Speech,andSignaIProcessing,SanFrancisco,1992,JJ: 1—4. [作者简介:高慧,女,博士研究生,助理研究员,研究方向数字信 号处理]
/
本文档为【基于Teager能量算子(TEO)非线性特征的语音情绪识别】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索