为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > 语音情绪识别中的基音周期分析

语音情绪识别中的基音周期分析

2018-02-19 11页 doc 28KB 59阅读

用户头像

is_562397

暂无简介

举报
语音情绪识别中的基音周期分析语音情绪识别中的基音周期分析 语音情绪识别中的基音周期分析 语音情绪识别中的基音周期分析 祝宇虹,李青,王丽平 (1.哈尔滨工业大学机器人技术与系统国家重点实验室,黑龙江哈尔滨150001;2.哈尔滨工业大学 船舶工程学院(威海),山东威海264209) PitchPeriodAnalysisintheSpeechEmotionRecognition ZHUYv—hong,LIQing1,WANGLi—pingz (1.StateKeyLaboratoryofRoboticsandSystem,HarbinIns...
语音情绪识别中的基音周期分析
语音情绪识别中的基音周期分析 语音情绪识别中的基音周期分析 语音情绪识别中的基音周期分析 祝宇虹,李青,王丽平 (1.哈尔滨工业大学机器人技术与系统国家重点实验室,黑龙江哈尔滨150001;2.哈尔滨工业大学 船舶工程学院(威海),山东威海264209) PitchPeriodAnalysisintheSpeechEmotionRecognition ZHUYv—hong,LIQing1,WANGLi—pingz (1.StateKeyLaboratoryofRoboticsandSystem,HarbinInstituteofTechnology,Harbin150 001,China; 2.SchoolofMarineEngineering,HarbinInstituteofTechnologyatWeihai,Weihai264209,C hina) 摘要:提出了一种可以用于情绪识别的语音基 音周期分析方法,利用平均短时能量和平均短时过 零率结合进行语音端点的检测,通过自相关函数计 算出浊音帧的基音周期.这种方法可以准确的分辨 出男女声音,结合人在不同情绪下的发音特点可以 收稿日期:2011一O4—02 进一步分辨出人的不同情绪.该方法简单易行,运 算方便,为语音情绪识别提供了很好的研究手段. 关键词:语音情绪识别;基音周期;基音检测;语 音端点检测;自相关函数 中图分类号:TP273.22 文献标识码:A 文章编号:1001—2257(2011)10—0053一O4 4混联贴片机器人贴片实验分析 通过PMAC的编程调试软件PEWIN32PRO 编写运动程序,控制电机和气缸,并通过以太网通信 端口与工控机交互.为了在贴片过程中使电机有更 好的稳态特性和动态响应,使用PmacTuningPro2 软件对两个伺服电机进行PID调整,获得最佳的 PID参数『1.PID调节好后,混联贴片机器人达到 了速度快,精度高和刚性好的要求. 5结束语 针对电子封装过程中LED贴片的实际要求,设 计了一种四自由度混联贴片机器人.经过实验验 证,机器人机械结构合理,控制功能强大,操作简便, 贴片速度快,精度高,可代替目前的通用型五,六自 由度多关节机器人或直角坐标型机器人,避免由此 产生的控制复杂,作业成本高和效率低等缺点.因 此,它在提高LED封装效率和质量的同时,也将会 在我国LED封装生产企业中得到广泛应用,使我国 的LED封装质量得到进一步保证. 参考文献: EliPMACuser'Smanual[Z].DeltaTauSystemInc,2005 《机械与电子32011(10) [2]Liux,YunC,ZhangZ.Developmentofmixed—con— nectionstackingrobotbasedonPMACrA].ICCSIT 2oo8~c3.Piscataway,NJ,USA,2008.362—366. [3]刘相权,等.基于PMAC运动控制卡的混联码垛机器 人研制[J].机械,2009,(5):49—52. [4]彭卫东,陈新,等.IC芯片粘片机并联焊头机构的运 动学分析I-J].机械设计,2005,(12):19—21. [5]张文典.实用表面组装工艺技术[M].北京:电子工业 出版社,2002. [6]刘呈则.基于PMAC的贴片机控制系统[J].黑龙江科 技信息,2009,(2O):53—54. [7]刘学鹏,等.基于PMAC的开放式高精度运动控制台 的研究[J].中国机械工程,2007,18(10):1186,1188. [8]郭强生.LED粘片机芯片拾取机构运动控制技术研究 [J].电子工业专用设备.2005,(6):27—32. [9]闫砺锋.运动控制技术研究及运动控制板卡开发ED]. 四川大学,2001. [1O]邹松青,刘学平,段广洪,等.基于PCI总线的LED固 晶机系统研究I-J].半导体技术,2008,(3):2O4—207. [11]赵保亚.基于PMAC的数控系统PID参数调节研究 [j].机械设计与制造,2007,(1O):146,148. 作者简介:邢迟(1987一),男,湖北黄冈人,硕士,研究方 向为工业机器人控制技术,PMAC应用技术;胡友民(1965一), 男,湖北武汉人,教授,研究方向为机械制造及自动化等. ? 53? 分 Abstract:Inthispaper,amethodisproposed 10calculatepitchperiodwhichisusedforemotion— alrecognition.Speechsignalendpoints—detection ispresentedbymeansofcombiningwiththeaver— ageshort——termenergyandaverageshort——term zero—crossingrate,andthenthepitchperiodof voicedframeiscalculatedbyautocorrelationfunc tion.Inthisway,maleandfemalevoicescanbedis— tinguishedaccurately,andpeople'Sdifferentmoods canbeidentifiedcombinedwithpronunciation characteristics.Thismethodissimpleandconven ient,providingagoodwayofspeechemotionrec— ognition. Keywords:speechemotionrecognition;pitch period;pitchdetection;speechsignalendpoints— detection:autocorrelati0nfunction 0引言 语音中包含两方面的信息,其一是语义信息;另 ,一 方面是非语义信息用来表达说话人的感情倾向, 例如学者Plutchik将其分为4类u],高兴,愤怒,惊 奇和悲伤.要对语音中的情绪信息进行识别,就要 提取计算机能够处理的特征参数,包括语速,线性预 测倒谱系数,线谱对参数,基音周期等.其中基音周 期是指发浊音时声带震动所引起的周期运动时间间 隔,也即声带震动频率的倒数.它不仅是语音信号 分析中的一个重要参数,同时也是语音产生的数字 模型中激励源的一个重要参数,因此它的计算与估 计是语音处理中一个十分重要的问题].对于基音 周期的计算和估计称为基音检测.但是目前基音检 测的实现方法对清音和浊音之间的过渡帧很难判断 是周期的还是非周期的,从而也就无法进行基音检 测;其次,即使在浊音段也很难判断出起始位置和终 止时间,因为语音信号本身就是准周期信号;另外, 基音周期的变化范围较宽,也增加了检测难度.同 时,男音和女音在情绪表达方面有些相似的特征,所 以在情绪识别之前要对性别进行鉴定,基音周期能 够很好地区分出性别特征.另外,基音周期在语音 识别,发音系统基音诊断等众多领域有着广泛的应 用. ? 54? 1清音/浊音的判断和端点检测 短时平均能量方法给出了区分清音和浊音的基 础.据试验统计发现],清音比浊音的幅度要小得 多,清音段的能量值明显小于浊音段,因此能量函数 可以大致用来区分出浊音语音和清音语音的变化范 围.设语音信号{()},它的短时能量E定义 为: E一?[z()?(一m)]一一N+1 其中,叫(n)为窗函数;N为窗口长度.根据E 由高到低的跳变判定为语音信号由浊音变为清音的 时刻,由低到高的跳变判定为语音信号由清音变为 浊音的时刻. 采用加窗,分帧的方法获得某小段的语音信号. 为了使帧与帧之间平滑过渡,保持其连续性,采用交 叠分段的方法,帧移与帧长的比值选为1/2.加窗 时需要考虑两方面的问题,即窗口形状和窗口长度 的选择.选择汉明窗,其定义如下: ()一 f0.54—0.46cos[27vn/(N一1)],O?n?N一1 {10,其它 之所以选择汉明窗的理由是汉明窗在时域内 可以减少时间窗两端的坡度,使窗口边缘两端不引 起急剧变化而平滑过渡到零,减小语音帧的截断效 应;在频域有较宽的3dB带宽和较小的边带最大 值.即海明窗的主瓣宽度比较大,并且带外衰减也 比较大.对于窗口的长度选择,如果N特别大,即 等于几个基音周期量级,则窗函数等于很窄的低通 滤波器,此时信号短时信息将很慢地变化,因而也就 不能充分地反映波形变化的细节;反之,如果N特 别小,是一个周期的量级,则信号的能量将按照信号 波形的细微形状很快地起伏.如果』\『太小,滤波器 的通带变宽,则不能得到较为平滑的短时信息,因此 窗函数的长度要选择合适.选用窗口长度为200. 要进行正确的信号提取,还需要正确判断每个 输入语音的起点和终点,利用平均过零率和短时能 量可以做到这一点.可以将短时平均过零率和短时 能量结合起来判断语音起始点的位置,即进行端点 检测.在背景噪声较小的情况下,短时能量比较准 确,但当背景噪声很大时,短时平均过零率可以获得 较好的检测效果,因此一般的识别系统,其前端的端 《机械与电子》2O11(10) 识别中的基音周期 点检测过程都是将这两个参数结合用于检测语音是 否真的开始. 因为人们在说话时,起始与结束的喘气声波能 量幅的大小不同,所以最常用的端点检测方法是双 门限比较法.选择初始时的短时能量门限是2,如 果之前能量一直小于2,或者大于2的能量发音持 续时间小于150ms,则认为录音还没有开始;如果 结束时,之后的能量一直小于5或者大于5的能量 发音持续时间小于150ms,则认为该段录音已经结 束.对于汉语中"你好"的录音和端点检测之后的效 果如图1和图2所示. 50 40 30 20 1O --L 'r'r t? t/s 图1对于"你好"录音的时间波形 lZUl40lbUl80llUUllZ0l 帧数 图2"你好"录音在端点检测之后的效果 2用自相关函数进行基音检测原理 自相关函数法是估计基音周期的有效方法,这 是因为浊音语音信号的短时自相关函数有很明显的 周期性,其周期便是前面指出的基音周期;而清音的 自相关函数没有这种很明显的周期性,因此可以用 计算短时自相关函数来进行基音检测.整个基音检 测的实现框图如图3所示. 图3基音检测的实现框图 对于离散的语音数字信号z(),它的自相关函 数R(忌)定义为: RUe)一z(m)z(+志) m一 其中,k为信号的延迟点数.对于随机信号或 者周期信号,这时的白相关函数定义为: 《机械与电子》2O1l(10) R(志)一lim()5C(+k) ,一..』1_1m=N 这表明一个信号和延迟k点后的该信号本身的 相似性.它具有如下性质:?如果信号x(n)具有周 期性,那么它的自相关函数也具有周期性,并且周期 与信号()的周期相同;?自相关函数是一个偶函 数,即RUe)一R(一k);?当k===0时,自相关函数具 有最大值,即信号和自己本身的自相关性最大,并且 这时的自相关函数值是确定信号的能量或随机信号 的平均功率.从这些性质可以看到,自相关函数提 供了一种获取周期信号的周期的方法.在周期信号 的周期整数倍上,它的自相关函数可以达到最大值, 即可以不用考虑信号的起始时间,而从自相关函数 的第一个最大值的位置来估计其周期. 因为语音信号包含非常丰富的谐波分量,基音 频率最低可达80Hz,最高可达500Hz,但基音频 率大多数分布在100,200Hz之间.因此,浊音信 号可能含有三四十次谐波分量,而其基波分量往往 不是最强的分量.取样模块从以采样频率为8kHz 的语音信号中截取样点数长个样点值,一般取样点 数为帧长的整数倍即可,程序中取了18000个样点 数进行分析.用短时平均能量判断出浊音帧,再对 浊音帧进行自相关函数计算.对图1信号计算出来 的自相关函数如图4所示. l L…--:}\一|/.0一,? /|lI/ } 020406080l00lZ0140l60I80Z00 帧数 图4对于录音"你好"计算出来的自相关函数 从图4可以看出,第1个共振峰的位置大约出 现在第40个滞后点上.因为浊音语音的自相关函 数具有一定的周期性,在相隔一定的取样后,自相关 函数达到最大值.试验表,滤波处理后的信号 只含有第1共振峰以下的基波和谐波分量,明显改 善了检测效果,因此估计出这段浊音的基音频率和 基音周期: ,一--2OO(Hz) ?55? 55O51 O0 坚靛 8642O246 0OOO加 的 T--专一一50(ms)?… 3实验与结果分析 在实验阶段所选用的录音脚本如表1所 示,采用诱导情绪获取情绪语音材料.分别用高兴, 愤怒,惊奇和悲伤4类情绪朗读材料,每类情绪包括 约1000句语句,并从中挑选出500句表达情绪比 较明显的语句.为了方便情绪表达,各类情绪语音 的文本并不相同,但它们均包含了不同的句子类型, 句子长度,以及声调和重音分布等情况.所有的情 绪语句均由一名女性发音人和一名男发音人在晚上 安静的环境下录音得到,并保存为8kHz采样率, l6bit量化,单声道的波形文件. 表1选用的录音脚本 序号内容序号内容 l你好6你全都说出来了 2不知道7F午我就要走了 3你真伟夫8昨天晚上我做了一个梦 4今灭要下雨了9今年7月份我就要毕业了 5明天就是周末r10这件事是谁告诉你的 不同的说话人在不同情绪状态得出的基音频率 统计数据如表2所示.为了清晰表达出基音频率对 情绪状态的影响,现将表2绘制成图表的形式如图 5所示. 从图5中我们可以看出,无论在哪种情绪状态 下,女性都比男性说话时的基音频率都高,这可以用 表2不同性别的说话人在不同情绪 状态下的基音频率统计数据(Hz) 高愤惊悲 兴怒奇伤 (a)均值 高愤惊悲 兴怒奇伤 (b)变化范同 高愤惊悲 兴怒奇伤 (c)方差 图5不同性别的说话者在不同情绪状态下的 基音频率的均值,变化范围和方差 ? 56? 来区分说话的人是男性还是女性;无论是男性还是 女性说话时,在惊奇状态下的基音频率最高,其次是 高兴状态下,最终是愤怒和悲伤.通过计算基音频 率,可以将惊奇和高兴与愤怒和悲伤区分出来;另 外,无论是男性还是女性,惊奇状态下的基音频率的 变化范围和方差都较大.总体来看,基音频率的均 值,变化范围和方差在4种情绪状态下的走势基本 上是一致的.这些结论与Murry和Arnott_8在 1993年得出的结论是一致的. 4结束语 基于短时能量的清音和浊音判断方法可以很轻 松地找到浊音帧的起始和结束时间,为浊音信号的 基音周期计算做了良好的铺垫.自相关基音检测的 算法容易实现,计算准确.用这种方法很好地区分 男女性别,并且分辨出了不同情绪下的频率特性,为 进一步的语音情绪识别打下了很好的基础. 参考文献: [1]NiimiY.EmotionalRobotWorld[M].Tokyo:Talkand SpeakPress,1995. [2]陈永彬,王仁华.语音信号处理[M].合肥:中国科学技 术大学出版社,1990. [3]韩继庆,张磊.语音信号处理[M].北京:清华大学出 版社,2004. [4]王秀君,和应民,木建一.一种有效的语音基音周期提 取算法_J].应用科技,2006,33(1):7—9. [5]马祥杰,孟相如,张百生.一种自相关基音检测算法 [J].通信技术,2003,(5):9". [6]赵力.语音信号处理[M].北京:机械工业出版社, 2003. [7]付青青,吴爱平.基于Matlab的语音信号自相关基音 检测[J].长江大学(自然版),2006,3(4):99一 lO2. [8]MurrayI,ArnottJI.Towardsthesimulationofemo tioninsyntheticspeech:areviewoftheliteratureon humanVOCalemotion[J].JournaloftheAcousticSocie tyofAmerica,1993,(2):1097—11O8. 作者简介:祝字虹(1959一),男,黑龙江哈尔滨人,高级工程 师,硕士研究生导师,研究方向为医疗机器人,机器人智能控制和人 工情感;李青(1986一),女,河南开封人,硕士研究生,研究方向 为语音信号的情感识别;王丽平(1980),女,辽宁大连人,讲师, 研究方向为机器人控制. 《机械与电子}2011(10)
/
本文档为【语音情绪识别中的基音周期分析】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索