基于Teager能量算子（TEO）非线性特征的语音情绪识别下载_Word模板_13

首页 > 基于Teager能量算子（TEO）非线性特征的语音情绪识别

is_215732

暂无简介

基于Teager能量算子（TEO）非线性特征的语音情绪识别基于Teager能量算子（TEO）非线性特征的语音情绪识别基于Teager能量算子(TEO)非线性特征的语音情绪识别第18卷第6期 2005年I2月航天医学与医学工程 SpaceMedicine&MedicalEngineering Vo1.18No.6 Det.2005 基于Teager能量算子(TEO)非线性特征的语音情绪识别高慧,苏广川,陈善广 (1.航天医学工程研究所,北京100094;2.北京理工大学,北京100081) 米摘要:目的探索识别汉语语音情绪的有效识别特征.方法采用...

基于Teager能量算子（TEO）非线性特征的语音情绪识别基于Teager能量算子(TEO)非线性特征的语音情绪识别第18卷第6期 2005年I2月航天医学与医学工程 SpaceMedicine&MedicalEngineering Vo1.18No.6 Det.2005 基于Teager能量算子(TEO)非线性特征的语音情绪识别高慧,苏广川,陈善广 (1.航天医学工程研究所,北京100094;2.北京理工大学,北京100081) 米摘要:目的探索识别汉语语音情绪的有效识别特征.方法采用基于Teager能量算子(TEO)的非线性特征,通过马尔可夫模型法(HMM),从汉语语音中识别平静和生气,欢快,悲伤4种情绪.结果文本有关时,5个非线性特征:基于频域TEO的Mel倒谱系数(nonlinearfrequencydomainMel,NFD—Me1), 基于幅频特性的Mel倒谱参数(amplitudeandfrequencypropertyMel,AF—Me1),基于微分幅频特性的Mel倒谱参数(amplitudeandfrequencypropertyMelofdifferential,DAF—Me1),基于幅度调制的子带倒谱参数(AM—basedSBCC,AM—SBCC)及基于幅频调制的子带倒谱参数(AMFM—basedSBCC, AMFM— SBCC)的情绪识别性能全部高于Mel频率倒谱参数(Mel—scaledcepstrumcoefficients.MF— CC).文本无关时,NFD—Mel,AF—Mel,DAF—Mel的识别率高于MFCC,AM— SBCC,AMFM— SBCC的情绪识别率低于MFCC.结论结合非线性TEO的识别特征NFD—Mel,AF— Mel,DAF—Mel可有效提高情绪识别性能. 关键词:语音;情绪;识别;Teager能量算子中图分类号:TP391.42文献标识码:A文章编号:1002—0837(2005)06—0427—05 EmotionRecognitionofMandarinst,eechUsingNonlinearFeaturesBasedonTeagerEnergyOperator (TE0).GAOHui,SUGuang—chuan,CHENShan— guang.SpaceMedicine&MedicalEngineering. 2005,18(6):427,431 Abstract:ObjectiveTostudyeffectivefeaturesofmandarinspeechwhichrepresentdifferentemo. t~onsinspeech.MethodUsingnonlinearfeaturesbasedonTeagerenergyoperatorfTEO)and adoptinghiddenmarkovmodel(HMM)recognizingmethod.neutralstateand3emotionalstatus( happlness,angerandsadness)wererecognIzedfrOmthemandarinspeechdatabase.Resultln comparisonwithMel—scaledcepstrumcoefficients(MFCC).whiletext— dependent.improvements ofrecognitioncapacitywereobtainedwhenusingall5nonlinearfeatures:nonlinearfrequencydo— mainMel(NFD—Me1),amplitudeandfrequencypropertyMel(AF— Me1),amplitudeandfrequency propertyMelofdifferential(DAF—Me1),AM— basedSBCC(AMSBCC)andAMFM.basedSBCC (AMFM—SBCC).Whiletext— independent.theperformanceofemotionrecognitionwasimproved byusingNFD— Mel,AF— MelandDAF— Mel,butdeterioratedbyusingAM— SBCCandAMFM— SB— CC.ConclusionTheresultsofrecognitiondemonstratedthatthenonlinearfeaturesbasedon TEO. whenusingNFD— MeJ,AF— MeIandDAF— MeJ,canjncreaseemotionrecognitioncapacity. Keywords:speech;emotion;recognition;Teagerenergyoperator Addressreprintrequeststo:GAOHui.InstituteofSpaceMedico— Engineering.Beijing100094.China 众所周知,言语

表

关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf 视力表打印pdf 用图表说话 pdf

情是人类特有的表达情绪的重要手段,它与面部表情和肢体表情一起,成为辅助言语交际的工具.因此,话语中不仅包含了文字符号信息,也包含人们的特定的情绪心理特征.而传统的语音处理系统往往着眼于文字内容传达的准确性,忽略了心理特征研究.近年来,随着人机自然交互,航天航空心理监测,智能机器人等诸多领域的应用需要,针对语音信号

分析

定性数据统计分析pdf 销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析

辩识其中的情绪特征成为语音处理领域的一个新的研究热点.目前国际上研究最多的是英语,国内近几年也开展了汉语普通话的情绪研究,各国学者收稿日期:2005一O1—23 通讯作者:高慧gaohui0@sohucom 基金项目:中国载人航天工程项目资助从语音工程学角度研究情绪心理因素,已取得了令人鼓舞的研究成果?J. 语音识别多数研究集中在"whatwassaid" 和"whowassaid"的语音内容识别和说话人辩识上,"howwassaid"研究相对较少,语音的情绪识别属于该范畴.语音情绪识别关键是一方面找到最有效的携带情绪因素的特征,另一方面是开发最有效的识别算法.本文主要探索针对汉语语音有效的情绪识别特征,识别方法采用隐马尔可夫模型法(即HMM法).目前,情绪识别的特征选择以基频,能量,时长及衍生的参数居多,此外还有Mel频域参数(MFCC),LPC参数等特征.在众多研究文献中有少数采用非线性特征进行研究,并有优于线性特征的研究成果J.为 428航天医学与医学工程第l8卷此eager能量算子(Teagerenergy ,本文运用T operator,TEO),从非线性角度对识别特征进行研究,以探索基于TEO的非线性特征对汉语语音情绪识别的有效性. 方法汉语情绪语料本文的汉语情绪语料采用天地通信时常用的 10条短句,每条短句有2至5音节不等.这些语句语义中性,并且是口语化的陈述句.在对情绪类型的选择上,从心理学角度和工程处理的角度都有各种不同划分方法,目前国内外还没有统一的

标准

excel标准偏差 excel标准偏差函数 exl标准差函数国标检验抽样标准表免费下载红头文件格式标准下载

,本文结合国内已有的研究经验,选择生气,欢快,悲伤3种情绪进行模拟,它们的共同特点是复杂程度低,常常紧张性高,便于模拟. 情绪语料录音试验在隔声室内完成,选用2 名女性被试者,年龄33,40岁,发音标准,无方言和口音.在录音前被要求默读录音语句,同时通过联想酝酿不同的情绪状态,然后再饱含感情地朗读.语料通过头戴式话筒和SoundBlaster声卡录制在微机上.录音语料再由其他5名被试者 (3名女性,2名男性,听力正常)进行听辨,主观评判播放语音的情绪状态.通过评判结果,对情绪类型判别不一致的语句进行删除和重新录制. 每种情绪各录制20遍,情绪语料共1600句. 特征提取在对语音的情绪识别中,首先要寻找最有效的携带情绪信息的语音特征参数.本文从语音生成的机制人手,根据现有的涡流非线性理论和目前已成熟的线性理论,采用非线性能量算子与传统语音分析参数相结合的方法,探索有效的情绪识别特征. 基于TEO的非线性理论语音生成物理模型是把声道看作一根不均匀的管子,线性语音分析假设沿管轴方向传播平面波.基于TEO的非线性理论则认为,当气流通过声带和伪声带区域会出现气流的分离,附着,形成涡流,与平面波一起构成语音生成的原因,而且是非线性的.这一观点为流体力学理论所支持,并可由Navier- Stocks等式在数学上模拟J.根据上述理论, Teager通过工程化处理,提出了一种能够反映涡流非线性作用的能量算子一TEO.离散形式的 Teager能量算子运算公式J: [s(n)]=s(n)一s(n+1)s(n一1)(1) 信号s(n)在n点的TEO只与该样本点和它前后各一个样本点有关,运算非常简单.对于受情绪影响的语音,根据非线性理论,声激励源的变化必然来自线性和非线性成分,因此,将非线性的 TEO引入识别的特征参数,可以从线性和非线性两个角度研究不同情绪影响下的语音变化,从而更好地识别语音中的情绪. 基于频域TEO的Yel倒谱系数TinLay New在对应激语音(stressedspeech)的研究中,采用基于频域TEO的非线性特征,用于识别不同应激(stress)条件下的语音.本文首先选用它作为研究对象.由情绪语音特征分析结果可知?,与平静时的语音相比,不同情绪下,能量会在不同频段上偏移,使得主要的能量在不同情绪这种能量分布的差异经下集中在不同的频段上, 过TEO变换后会更为明显.且有研究表明,在语音信号的频域中,语音信号的谱峰信息(peaks) 要比谱谷(valleys)信息对语音的感知贡献更大…,因此基于频域的TEO非线性变换会使能量高时的谱峰信息得到强调,使不同情绪间的语音谱能量差异更加明显,使识别时系统更好区分. NFD—Mel的实现过程如图1所示,首先对情绪语音信号预加重,分帧,加哈明窗;再对每帧采样点进行FFT(256点),计算功率谱值S(i);对功率谱各点计算TEO: [5()]:S()一5(i+1)S(i一1)i=1, 2,…,]28(2) 对经TEO变换后的谱值进行Mel频域带通滤波(滤波器个数为21);对Mel频域滤波器组的输出求自然对数和离散余弦变换(DCT),从而得到特征NFD—Mel. 基于幅频特性的Yel倒谱参数和基于微分幅频特性的Mel倒谱特征与一般的能量运算不同,对于幅度和频率缓变的带通信号(t),表征信号及其微分的瞬时能量TEO是一个不仅与信号幅度o(t)有关,而且与频率?(t)有关的量?: [(t)]一.(t)一?(t) [(t)].(t)一?(t) (3) (4) 第6期高慧,等.基于Teager能量算子(TEO)非线性特征的语音情绪识别429 taking flames hcale filterbankslnh/1" 图1NFD—Mel特征提取过程 Fig.1NFD_ Melfeatureextraction tak …ing}=m}=f2.}=Mel 图2AF—Mel特征提取过程 Fig.2AF—— Melfeatureextraction 在不同情绪的影响下,语音的幅度和频率信息会发生改变,瞬时能量TEO也会随之变化.因此在频域计算对应的频谱强度与对应频率的积, 来研究非线性瞬时能量TEO的变化,该特征称为 AF—Mel.由于在生气和欢快情绪中会有呼吸声, 这些声音通常能量低但对应频段高,同时一些辅音也有类似特点.传统的能量概念由于只考虑信号的幅度,对于幅度低频率高的呼吸声和辅音则有所忽略,而AF—Mel特征即考虑幅度又考虑频率,因而会提高呼吸声和辅音在情绪识别的贡献. AF— Mel特征提取过程见图2,语音的预处理同前一特征,之后对每帧信号FFT得到功率谱值s (i),同时计算功率谱各点对应的频率值f(i),并由该点强度与频率乘积的平方得到AF(i): AF(i)=.厂(i)?S(i),i=1,2,…,128(5) 然后再按Mel频域划分,并求对数和离散余弦变换得到AF—Mel. 与AF—Mel特征的思路类似,可以通过对频域的运算来研究信号微分后的TEO变化情况,即通过频谱的平方与对应频率的4次方乘积,得到情绪识别特征DAF—Mel.实现方法同AF—Mel 类似,唯一区别是在得到功率谱后,计算DAF(i): DAF(i)=.厂(i)?S(i),i=1,2,…,128(6) 基于幅度调制的子带倒谱参数和基于幅频调制的子带倒谱参数根据人耳对中低频的分辨力高于高频的听觉特点,以及基频和共振峰的变化是体现情绪状态的重要声学参数?,本文采用小波分析中的多分辨率思想,结合TEO进一步研究有效的非线性情绪识别特征. 使用小波包分解模拟人耳频率分析机制,将情绪语音的低频段细分,高频段粗分.频域划分通过6尺度小波包分解实现,小波基

函数

excel方差函数 excelsd函数已知函数     2 f x m x mx m      2 1 4 2 拉格朗日函数pdf 函数公式下载

选用 Daubechies一4,将语音信号分解在21个子带上, 它与Mel频域划分对比见图3. 3k4k 2k3k4k ?Hz 图3Mel频率划分与小波包频域分解 Fig.3SubbanddecompositionofMelscaleandofwave- letpackets a.waveletpacketsdecomposition;b.Melscaledecom— position 通过小波包分解将情绪语音信号分解到21 个子带上,根据TEO非线性理论,对于每个窄带时域信号可看作是AM—FM信号,由情绪语音的明亮度分析可知,各种情绪频域能量集中区域不同,因此不同情绪信号各频段能量分布必然有差异,它的瞬时幅度也会不同.通过能量分离算法(digitalenergyseparationalgorithm1, DESA1)?对子带信号分解,求出时变幅度的变化,可研究不同情绪下,语音各个频段内的幅度变化细节,得到AM—SBCC参数. 与AM—SBCC思路类似,小波包分解后,不仅研究子带信号时变幅度同时还研究瞬时频率, 从幅度和频率两方面变化细节来识别情绪.通过 DESA1分解得到瞬时频率的改变,与AM—SBCC 结合形成特征参数AMFM—SBCC.两参数的实现过程见图4,预处理同前,对每帧信号进行6尺度db4小波包分解,将信号分解到21个子带上, 计算各子带信号的TEO;通过DESA1算法分解得到各子带的时变幅度AM和瞬时频率FMi,(i = 1,2….,21),求均值;对每个子带的平均幅值和平均频率求自然对数和离散余弦变换,单独幅度变换值构成AM—SBCC,加入瞬时频率信息得到AMFM—SBCC. 语音情绪识别方法为方便研究非线性特征参数对语音情绪识别的有效性,需要建立一个语音情绪识别基线系统. 第6期高慧,等.基于Teager能量算子(TEO)非线性特征的语音情绪识别431 了文本内容对情绪识别的影响,而文本无关时文本信息的发散对HMM模型的训练造成干扰,从而降低了识别率. 2)在各组情绪特征中,与文本有关时,非线性特征的识别率都高于MFCC,情绪识别率由高至0低{{}歹0,分另0是AF—Mel,NFD—Mel,DAF—Mel, AM— SBCC,AMFM—SBCC,识别率各提高6.1%, 5.6%,4.9%,4.5%,1.2%.文本无关时与MF— CC相比,NFD—Mel,DAF—Mel,AF—Mel的识另0性能分别提高2.4%,1.7%,1.6%,AM—SBCC, AMFM—SBCC识别性能分别降低6.0%,5.8%. 根据上述结果可以看出,非线性识别特征中NFD — Mel,AF— Mel的情绪识别性能最好,文本无关时,非线性特征AM—SBCC和AMFM—SBCC识别性能低于MFCC. 3)各种情绪特征的识别性能对于某些情绪的识别具有特异性:文本有关时,各个特征对平静的识别率都低于MFCC,而识别欢快和生气时,识别率都高于MFCC,对于悲伤的识别NFD—Mel, AF— Mel,DAF— Mel,AM—SBCC有优于MFCC的识别性能.文本无关时,各个特征对欢快的识别性能好于MFCC,NFD—Mel,AF—Mel,DAF—Mel 对平静的识别率高,NFD—Mel,DAF—Mel对生气的识别率高,AM—SBCC,AMFM—SBCC对悲伤的识别率高. 讨论由于航天,航空心理监测和人机自然交互应用的需要,通过语音信号识别情绪的研究近几年受到各国学者的重视的识别,但对于识别语音中的感性信息的识别是一项难度较大的课

题

快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题

,由于许多理论还不成熟,因此目前尚属起步阶段.语音情绪识别的关键是首先找出可有效体现情绪心理状态的特征.本文针对一套小规模的汉语情绪语料,在已有的非线性特征研究成果基础上,采用基于TEO的非线性理论,并结合小波分析的多分辨率思想对此做了探索和尝试.采用HMM作为识别方法,与MFCC识别特征相比,文本有关时,非线性特征的识别性能全部高于MFCC.在更为复杂的文本无关情况下,通过建立合适的 HMM拓扑结构,5个非线性特征中的NFD—Mel, AF— Mel,DAF—Mel识别性能仍高于MFCC.AM — SBCC,AMFM— SBCC的情绪识别率则降低,说明非线性特征中NFD—Mel,AF—Mel,DAF—Mel 的识别性能好于AM—SBCC,AMFM—SBCC. 本文从基于TEO的非线性特征人手,对汉语语音的情绪识别做了初步尝试.今后还可进一步尝试利用生理指标来辅助监测和识别说话人情绪,如采用皮肤电阻(GSR),血压,心率和呼吸量等参数,以及采用面部表情特征相结合方式,从多方面多角度识别人的情绪. l参考文献I 『1]StreeterLA,MacdonaldNH,AppleW,eta1.Acoustic andperceptuaIindicatorsofemotionaIstressJ1.The JournaIoftheAcousticSocietyofAmerica.1983.73 (4):1354—1360. 『2]MurrayIR.ArnottJL.Towardsthesimulationofemo— tioninsyntheticspeech:areviewoftheIiteratureof humanvocaIemotionJJournaIofAcousticSociety ofAmerica,1993.93(2):1097—1198. [3]PicardRwAffectiveComputing[M]Cambridge:The MITPress.1997141—192 [4]ZhaoLi,QianXiangmin,ZouCairong,etalAstudyon emotionalfeatureanalysisandrecognitioninspeech signaI『J]JournaIofChinaInstituteofCommunIca— tions.20oO,21(10):18—24 『5]ZhouGJ,HansenJHL,KaiserJFClassificationof speechunderstressbasedonfeaturesderivedfrOmthe nonlinearTeagerenergyoperator『C]IEEEInterna— tionaIConferenceonAcoustics.Speech.andSignaIPro— cessing.Seattle.1998.549—552 61FernandezR,PicardRW.Modelingdriver'sspeech understressIEB]theISCAWorkshoponSpeechand Emotion,2000; ceedings/2002.4. 『7]TeagerHM,TeagerSMSomeobservationsonoraIair flowduringphonation『C]JEEEJnternationalConfer— enceonAcoustics,Speech,andSignalProcessing, 1980.ASSP一28(5):599.601 『8]KaiserJFOnasimplealgorithmtocalculatethe'Ener— gv'ofasignal『C1.』EEE』nternationaIConferenceon Acoustics,Speech,andSignalProcessing,Albuquerque, 1990381—384 [9]TinLayNwe,SayWeiFoo,LiyayanageC,etalClassi— ficationofstressinspeechusingIinearandnonlinear features『C].IEEEInternationalConferenceonAcous— tics,Speech,andSignalProcessing,HongKong,2003, l】:9—12 [1O]GAOHui,SuGuangchuan,CHENShanguangEmotion recognitionofmandarinspeechbasedonTEOnonlinear features[J]SpaceMedicine&MedicalEngineering, 2005.18(5):350—354. 『11]StropeB,A1wanAAmodeIofdynamicauditoryper- ceptionanditsapplicationinrobustwordrecognition 『C].JEEEJnternationalConferenceonAcoustics. Speech,andSignalProcessing,Atlanta,1996,I:3740. [12]MaragosP,KaiserJ,QuatieriTOnseparatingampli— tudetrOmfrequencymodulationsusingenergyopera— tors『C].1EEE』nternationalConferenceonAcoustics. Speech,andSignaIProcessing,SanFrancisco,1992,JJ: 1—4. [作者简介:高慧,女,博士研究生,助理研究员,研究方向数字信号处理]

本文档为【基于Teager能量算子（TEO）非线性特征的语音情绪识别】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。

基于Teager能量算子（TEO）非线性特征的语音情绪识别

热门搜索

历史搜索