为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

语音识别中段长相关信息的利用

2017-10-23 8页 doc 26KB 7阅读

用户头像

is_037433

暂无简介

举报
语音识别中段长相关信息的利用语音识别中段长相关信息的利用 李 健 王作英 (清华大学电子工程系,北京 &"""?)) :@=A2.77.B.21CDEFG$DF.1HE2$0$J1 I/I 摘 要(32D.51 .FD3.KD.51 2F0 .01 23456 507)模型克服了经典 中段长为指数分布的缺 ,,-*++,I,I-/*//++/*++ 陷,更加符合语音信号的物理实际,取得了很好的效果。该文对 框架下的段长相关性进行了研究,介绍了相关 ,,-*++ 性的训练算法和段长相关性用于快速识别的可行性,并将段长相关性运用于语速自适应,有效降低了由...
语音识别中段长相关信息的利用
语音识别中段长相关信息的利用 李 健 王作英 (清华大学电子工程系,北京 &"""?)) :@=A2.77.B.21CDEFG$DF.1HE2$0$J1 I/I 摘 要(32D.51 .FD3.KD.51 2F0 .01 23456 507)模型克服了经典 中段长为指数分布的缺 ,,-*++,I,I-/*//++/*++ 陷,更加符合语音信号的物理实际,取得了很好的效果。该文对 框架下的段长相关性进行了研究,介绍了相关 ,,-*++ 性的训练算法和段长相关性用于快速识别的可行性,并将段长相关性运用于语速自适应,有效降低了由于语速问题引起 的删除错误和插入错误。 关键词 语音识别 段长相关性 语速自适应 文章编号&""=?##&=(""#)%=""8?="# 文献标识码 L 中图分类号 MN#O&$) !!!! "# $%&’&()%&*+ *, /)%&*+ 0*//#’)%&*+ 1+,*/2)%&*+ !-. &+ 34##5" 6#5*7+&%&*+ 8& 9&)+ :)+7 ;.*<&+7 (,0G23DA01D 5P @70JD351.J @1H.1003.1H,MF.1HEI2 Q1.603F.DR,-0.B.1H &"""?)) (),,-*++ ,I32D.51 ,.FD3.KID.51 -2F0/ *.//01 +23456 +5/075603J5A0F DE0 /0P0JDF 5P 0SG5101D.27 =>?%/)5%: ,5P /I32D.51 .1 J72FF.J *++ 21/ /0FJ3.K0F DE0 FG00JE F.H1 27 A530 G30J.F07RF5 .D 2JE.060F E.HE03 .FD3.KD.51 /I G03P53A21J0 DE21 J72FF.J ++$T1 DE.F G2G03,DE0 32D.51 J533072D.51 .1P53A2D.51 .F FD.0 103 DE0 P32A0U534 5P */II//I/ ++$ME0 D32.1.1H 27H53.DEA 21 DE0 P02F.K.7.DR 5P F.1H 32D.51 J533072D.51 .1 P2FD 30J5H1.D.51 27H53.DEA 230 ,,-*/I/I ,.1D35J0$QD.7.V.1H DE0 32D.51 J533072D.51 D5 FG024.1H 32D0 22GD2D.51DE0 070D.51 03353 21 .1F03D.51 03353 J2 F0 KR /I//I///I/ FG024.1H 32D0 230 30/IJ0/ F.H1.P.J21D7R$ :,,@#方法
有两类,一是根据语速的快慢调 整转移概率,将慢速情况下的状态自转移概率增大,离开转移 概率变小,快速则反之,从而调整每个语音单元的持续时间以 ! ,,-*++ 的简要介绍 适应语速;另一类认为段长跟语速有关,用语速对段长进行归 ’&(’(’#(’)(!一化 。这两种方法都要用到语速的测度来决定调整的程 经典 ()引入语音识别后,极大 *++*.//01 +23456 +5/07度,因此获得的语速测度的准确性很重要。同时还注意到,上述 地推动了语音技术的发展并成为了语音识别的主流模型。但是 研究仍然是基于经典的 的框架,对段长的利用来说仍然 ++ *经典 对转移概率齐次性的假设导致了段长的指数分布, *++ ’%( 存在缺陷。成为经典 最大的缺陷。同时经典 对于转移概率的 *++ *++ ’8(对于语速的认识是:语速的变化可以反应为段长的变化, 。以状 ,,-*++ 独立估值也是其对语音信号不够准确的描述即语速较快时,相应语音单元段长会比平均段长短,慢速情形 态驻留长度的概率分布为基本参数,很好地克服了上述缺陷。 则相反;而且相邻语音单元段长受到语速的影响相对各自段长 由于它对语音信号的描述更加符合语音的物理实际,所以取得 ’9(。对语音信号的描述是:一个具有段,,-*++ 均值的偏离程度会有很大的相关性。因此纳入段长的相关信 了很好的效果 息,用前一个语音单元段长对其均值的偏差来预测后一个语音 单元段长的变化趋势,应该是解决语速问题的有效途径。同时 # 长分布的 状态语音过程,其输出特征为 ,, ,,<":;"""! & & # !段长相关性的利用是在识别的同时进行,也不需要获得语速的 将段长作为一 -*++,,概率分布为 (, ,;, ,)。其中 ,分别为第 个状$%%%& !!!&&&& !!测度,是一种在线的语速自适应方法。 态对应的段长和输出特征,并且 %;,, ,<,为:"""’ && >& > ’’!’&=& &=& & 状态的分割点,’:&(&(&,!, ,!),那么概率分布可以表示为 " ! "&段长为 的条件概率:! & $ ()()(!) % !!() !!!* ,’ +2+ 5& 1",!& & & &+& & " & % & ’ % & ()!3 ! & * ! (6) %这样的模型是一个非齐次的模型,需要有专门算法解决这 +$ " 1 ! &+&*%0!(),,-.,/.!$ &4& & 个模型的训练问题和识别问题。 1 上式中 表示这样一个事件:给定观测特征 的情况下,3 $ * & 时刻仍处于 语音单元,时刻进入 语 音 单 *4!&+! *+!,& &+& &+& &+& # 段长相关信息的数学表达 元并分别在 单元和 单元驻留了 帧和 帧。上式求和 &+& & !!由于发音器官是一个物理的实际系统,具有运动惯性,因 &+& & 号中的 为 单元的最后一个状态号,为 单元的最后一 0 &+ 2 & !此发音器官发出的语音在时间上具有很强的相关性。这种相关 个状态号。这里的语音单元可以分别为状态,半音节,当语音单 信息的利用应该可以提高语音识别系统的性能。文章对段长的 相关信息进行了研究。由于讨论的是段长的相关信息,所以在 0%&+!,2%&。由于 3 表示的是所有路径中的一部分 元为状态时,* ()式中,忽略掉观测量和段长的相关性后,重点关注 (,,&!!! &!路径,所以在文的基础上能很容易获得这个概率。,-. ,)。这个概率可以表达成 !"获得条件概率之后就可以计算两个语音单元段长的相关 系数了: " ! &(,, ,)(#) !!!% !!!&!""# !! ! &+& &+ & !& % & ! & (! +%) (! +% ) (! ) !! " $ & & &+& &+& &+& ! 上式的右边表明了本语音单元以前的单元段长对于本语&+& .’(7) ++ 音单元段长的影响。至于考虑前面多少个语音单元段长对于本 ##! ! &4&& &+&&语音单元段长的影响,主要取决于计算复杂度和训练数据量是 文,. 讨 论 了 ++ 中 用 段 长 不 相 关 模 型 进 行 识 别 时 /(()*否能对相关信息的进行充分训练。综合考虑,该文研究了前一 快速算法必须满足的条件,对于段长相关模型来说,能运用到 个语音单元段长对本语音单元段长的影响,即认为: 快速识别算法的条件为:设 为上一语音单元的段长,为本语 ! 4 音单元的进入时刻,时,必须有484 &! !! &&(0) ! %! " $% $ !!!! &+& &+!&&+& .# ! ()4 44 4 ,! 8! .!(-) & ! & ! # & 对于段长的概率分布,如果采用非参数化的直方图描述, 那么参数量将会非常巨大,而且很难有足够的数据对每个(,在识别的时候,很容易计算上式是否成立。对于成立的就! &)的组合的概率进行训练,所以一般采取参数化的描述。文 用段长相关模型,不成立的则退化到段长不相关模型。 !&+& 献表明,正态分布能很好地描述式()所示的段长不相关的 ,./! 一元段长模型,所以这里我们也采用了正态分布来描述段长的 % 试验结果 相关性。在正态分布的情况下,()式的条件概率能够表示为:0 由于汉语语音中元音单元受语速的影响比辅音单元要强, 而且元音单元的段长相对状态段长也比较稳定,所以本文的试 !& (! +%) 验采用了元音单元之间的相关性。 ! && & & + 123 (%) !% $ " () !! &+&该文首先在数字串上作了试验。本数据集由实验室自行录 && !# #$! ’& & 制,包括 个女性说话人,每人各念 个约 个数字串的文 # # #% ! ! ! !*& 件共 个文件组成,这三个文件的数字串长度分别为 个数 上式中,-%- ,# .(! +% ) / # ,#’#(),其 中6 0 /&4. & & & &+& &+& &+& ! ! 字,个数字,个数字。选取慢速情况和快速情况的文件各 % - # ,分别为相邻的前后两个语音单元的段长,,分别为!! % % & &+& & &+& 个进行识别,其它文件进行训练。采用的特征是 维 特 &0 +9:: 其均值,,分别为其方差,是 和 间的相关系数。可以##. !! &+& & &+& & 征及其一阶差分和二阶差分,归一化能量及其一阶差分和二阶 看出条件概率 ()仍是一个正态分布,只是其均值和方 0 !/ !差分,一共 维特征。结果见表 。0% & & &+& 差已经不是原来的均值和方差了,而是受前一个语音单元的影 表 & 中,系统 & 是指没有采用段长相关信息的系统,系统响有所变化,这种影响的程度由两个语音单元的相关系数 决 . 是指采用了段长相关信息的识别系统。表 中系统 和 含 & ! ! ! 定,从而使段长分布自动调整到与说话速度相应的程度。而且 义与这里的一样。 对于慢速情况采用段长相关性后总错误率 从 下 降 #$#- ; 到 ,相对下降 ,快速情况总错误率从 下降$%#$67$0 !-!!-;;;& 相关系数 . 绝对值越大,预测方差#就越小,前一个单元段长& 计算机工程与应用 !""#$!% 6/ 对于后一个单元段长的预测就越准确。因此,利用相邻单元段 长之间的相关性必然可以更加有效地利用段长信息,从而降低 表 & 段长相关性应用于数字串识别的实验结果 下降 #$%,快速情况下相对下降 &%$。对大词汇量连续 !()!’) 语音试验中,对慢速语料插入错误相对下降 ,对快速语 !%$(+) 语速情况系统插入错误删除错误替代错误总错误率料删除错误相对下降 。试验表明该算法对偏离正常语 !*$",) 系统 慢速&$ $* $ #$# !’()"")""")() 速的语料进行识别时,能自动根据语速进行语音单元段长的调 系统 !!$#() "$!") "$"") !$%() &&$ $ &$& #$ 系统 (")"!")’)!")适中整,从而降低由语速带来的插入错误和删除错误,获得了更精 速度 系统 !&$+") "$"") &$&’) !$,’) 确的分割点,并因此减少了替代错误,从而提高了系统的性能。 系统 快速"$"" $"" "$(# $(* )!))!)&(收稿日期:年 月)""# & ! 系统 !$ &$+ $ $* """)’)",!)!") 文章还对连续语音进行了试验。大词汇量连续语音试验所 用的语音数据是由 智能计算机主题办公室提供的,这里采 (+# 参考文献用了其中的男声数据进行实验,共 个说话人,每个说话人对 # (&$V 6A:@<;8W,U 5AI9A:F =7;@<;>7>G GI88=J 别(慢速,适中语速,快速三类各 个文件),另外 个文件用 # ,* :8=7E<@<7LKN$R:>:7G88=J ,& ;;;.I’,’’, 于训练。 !$SOAXA:A$B=7>G@<= 3:7I8:@<8G 7H 3J7;8?8G <; K7;@<;>7>G MI88=J 表 ! 段长相关性应用于连续语音识别的实验结果 H7: UG1;6;.6I/;; 语速情况系统插入错误删除错误替代错误总错误率<;E 7;19;<8 8G@7GI88=J ’,,&’’,: 慢速系统 *$+*) "$&&) &’$**) !*$&’) &!,"’[!"(! 系统 #$**) "$&") &($%() !!$&!) !* $ BX0899AJ 7>GH< ,BX0897>AH< 68W=@<7 7H @J8 M8AZAE$V>0A?8@A9G 7H G88=J :8=7E<@<7L6N$3:81 / /;-;;;I;;; 系统 !"$#!) &$!%) !%$’+) !,$%#) @<=8 SA9,9&’’# 对大词汇量连续语音的试验,慢速语料插入错误从 *$+* )+$李健,王作英$S66 转移概率的重估算法LQN$电子学报,!""&;!’(&!B): 下降到 ,相对下降了 ,而且总错误率也相对下降 #$**%$(+)!)&(##&(#% [了 。对于快速语料删除错误从 下降到 ,相对 ($%+&$++&$%))!),$王作英$基于段长分布的 S66 语音识别模型LKN$见:第二届全国汉字、 下降了 ,总错误也有了一定的下降。而且对于适中语速 !*$,")汉语识别会议(庐山),&’(’1"’ 没有什么影响。说明了段长相关性的使用对连续语音也是有效 ($肖熙$语音识别中非齐次 6A:Z7P 模型的研究LUN$博士学位$北京: 的,很明显地减少了由于语速带来的插入错误和删除错误。清华大学电子工程系,!""! ’$赵庆卫$非特定人大词汇量汉语连续语音识别系统的研究LUN$博士学 位论文$北京:清华大学电子工程系,&( ’’ + 结论 该文对语音单元的段长相关性进行了研究,介绍了段长相 2345 无线建模的整 能接收信道的组合。该文详细地总结了 .(上接 +% 页) 调制曲线模型参数表 ! 个过程,并给出天线模型及调制解调模型的参数配置方法。该 文对于从事无线信道研究工作的 非使用者也有一定的 234.5 采样点个数 &"" 年 月)# + !""启发意义。(收稿日期: 横坐标下确界(0-)1&" 横坐标上确界(0) -!" 纵坐标下确界(0)" - 参考文献纵坐标上确界() "$* 0- &$234.5 670898: ($" 7;9;<8 07=>?8;@A@<7; 采样点序列号-./ !$3 /<=8,B C D7;E98F 8@ A9$5:A;G?;<=A@<7; K<:=><@GMLN$4A@<7;A9 ->:8A> 7H M@A;0A:0G 58=J1 ! "$#!#+"!%&(,#" ;<=A9 47@8 &"&,@O7 P79>?8G,80 6AF &’+%,:8P9A: 58::A<;,B K7?I>@8: 68@J701&’+(L/N$.MMB 58=J1 $$$ <=A9 87:@ D 1R5M + RG@<@>@8 H7: 5898=7??><=A@<7G M=<1 ;/I./,’,;;;*" "$"&% ’((’’((,8=8G,&+ ;(’$$$ *$S>HH7:0 ,D7E98F$B C><08 @7 @J8 TG8 7H @J8 R5M R::8E>9A: 58::A< ;;%" "$"""+’,,!!&*, 67089 < @J8 B:8A 3:80<=@<7 6708LN$45RB :87:@ 1&,TM U8@ ;;/I(!""I $$$ 7H K7??8:=8,4A@<7;A9 5898=7??>;<=A@<7;G A;0 R;H7:?A@<7; B0?<;
/
本文档为【语音识别中段长相关信息的利用】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索