为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

隐马尔可夫模型在语音识别中的应用

2010-07-08 5页 pdf 248KB 49阅读

用户头像

is_738492

暂无简介

举报
隐马尔可夫模型在语音识别中的应用 第 18 卷第 6 期 工 科 数 学 V o l. 18, №. 6 2002 年 12 月 JOU RNAL O F M A TH EM A T ICS FOR T ECHNOLO GY D ec. 2002 隐马尔可夫模型在语音识别中的应用 段红梅,  汪 军,  马良河,  徐 冉 (徐州空军后勤学院, 江苏 徐州 221000)   [摘 要 ] 隐马尔可夫模型 (HMM ) 的基本技术是语音识别中较为成功的算法. 主要是它具有较强的对 时间序列结构的建模能力. 本文首先深入浅出地介绍了HMM 的基本技术和一...
隐马尔可夫模型在语音识别中的应用
第 18 卷第 6 期 工 科 数 学 V o l. 18, №. 6 2002 年 12 月 JOU RNAL O F M A TH EM A T ICS FOR T ECHNOLO GY D ec. 2002 隐马尔可夫模型在语音识别中的应用 段红梅,  汪 军,  马良河,  徐 冉 (徐州空军后勤学院, 江苏 徐州 221000)   [摘 要 ] 隐马尔可夫模型 (HMM ) 的基本技术是语音识别中较为成功的算法. 主要是它具有较强的对 时间序列结构的建模能力. 本文首先深入浅出地介绍了HMM 的基本技术和一个基于HMM 的孤立词语音 识别系统的构成方法, 其次, 基于HMM 尚存有一些缺陷, 造成语音识别能力较弱, 为此本文又进一步阐述了 语音识别应用中的几种改进的HMM 系统及目前的热点方法——HMM 与ANN 构成的混合网络. [关键词 ] 随机过程; 隐马尔可夫模型; 语音识别; 神经网络 [中图分类号 ] O 211162; TN 912134  [文献标识码 ] C  [文章编号 ] 100724120 (2002) 0620016205 1 引  言 目前应用最为成功的语音识别系统大多是基于隐马尔可夫模型 (H idden M arkov M odel) 构造的. 如CM U 的 Kai2Fu lee 等研制的 SPH IN X 连续语音识别系统, 对 997 个词在有ö无文法限制的条件下, 识别率分别为 96% 和 82%. IBM 构造的 T ango ra2000 词语音识别系统得到 95% 的识别率. 用HMM 进 行汉语声母、韵母、单音节及连续语音识别, 都得到了很好的性能[ 6 ]. HMM 之所以在语音识别中应用较 为成功, 主要是它具有较强的对时间序列结构的建模能力. 隐马尔可夫模型用概率或统计范畴的理论成 功地解决了: 怎样辨识具有不同参数的短时平稳的信号段, 怎样跟踪它们之间的转化等问题. 由于语音 的信息结构是多层次的, 除了语音特性之外, 它还牵涉到: 音调、能量等超音段信息, 以及语法、句法等高 层次语言结构的信息. HMM 的特长还在于: 它既可描述瞬态的 (随机过程) , 又可描述动态的 (随机过程 的转移) 特性, 所以它能利用这些超音段的和语音结构的信息[ 1- 3 ]. 尽管如此, HMM 技术也存在一些缺 点, 影响了语音识别的能力, 所以HMM 的改进算法及近年来HMM 与ANN 构成混合网进行语音识别 的研究成为热点, 成果引人注目. 本文深入浅出地介绍了 1) HMM 模型技术; 2) 基于 HMM 的一个孤立词语音识别系统; 3) HMM 的缺陷及改进. 2 HMM 模型技术 211 隐马尔可夫模型 (HMM )定义 HMM 是一种用参数示的用于描述随机过程统计特性的概率模型, 它是由马尔可夫链演变来的. 所以它基于参数模型的统计识别方法. 它是一个双重随机过程——具有一定状态数的隐式马尔可夫链 和显示随机函数集. 每个函数都与链中一个状态相关联. 隐式过程通过显示过程所产生的观察符号序列 来表示。一个有N 个状态 (S 1, S 2, ⋯, S N )的HMM 可用三元组参数 Κ= {Π,A ,B }表示. 其中 初始分布矢量 Π= [Π1, Π2, ⋯, ΠN ]: 用于描述给定的观察序列O = o1o2⋯oT 在 t= 1 时刻状态 q1 属于  [收稿日期 ] 2001207219 © 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved. 模型中各状态的概率分布, 即: Π1= P (q1= S i) , i= 1, 2, ⋯,N , 它满足: ∑N i= 1 Πi= 1. 状态转移概率矩阵A : A = {a ij }N ×N = {a ij û i, j = 1, 2, ⋯, N }, 这里 a ij = P (q j , t+ 1 时刻ûq i, t 时刻) , 是 从状态 i 转移到 j 的状态转移的概率分布; ( i= 1, 2, ⋯, i, ⋯, j , ⋯,N )它满足∑ N j= 1 a ij = 1. 状态符号观察概率B : B 为观察序列O 中任一观察 (它是随机变量或随机矢量在各状态的观察概率 空间中的分布). 这个分布有离散型和连续型两类, 分别相应于离散HMM 和连续HMM. 对于离散模型 B = {bj k }N ×N 是对应一矢量量化器码矢的概率矩阵; 对于连续模型B = bi (x )是描述状态É 特征矢量分布 的概率密度函数. 在此,N 为HMM 中状态数,M 为矢量量化器码书的大小. 以上就是隐马尔可夫模型的完整的定义及说明. 从定义看出, HMM 与有限状态的一阶马尔可夫链 一样地用初始分布、状态转移概率矩阵来描述有限长随机序列的统计特性, 但他不同于马尔可夫链由每 一观察即可确知当前所处状态, 而是由每一观察仅能估算出当前处于各种状态的概率. 这就是说, 它具 有双重随机性, 是一种双重随机过程. [ 2 ] 212 HMM 的三个基本问题 用HMM 构成语音识别系统或说话人识别系统, 必须解决三个基本问题[ 2, 3, 6 ]: 对于给定的一个观 察序列O = o1o2⋯oT 和一个HMM 参数组 Κ= {Π,A ,B }, 则 一、识别问题. 对于给定O , 求概率 P (O öΚ) 的计算: 设有一语音O = o1o2⋯oT , T 为语音长度 (帧数) , 模型 Κ产生O 的概率可采用前后向算法 (Fo rw ard Backw ard P rocedu re) 可以使其计算量降低到N 2T 次运算. 定义 前向变量 a t ( i)和后向变量 Βt ( i)分别为 a t ( i) = P (o1, o2, ⋯, ot, q t= sj öΚ) = ∑N i= 1 a i ( t- 1) a ijbj (ot) ,Βt ( i) = P (ot- 1, ot- 2, ⋯, oT öq t= si, Κ) = ∑N j = 1 a ijbj (ot+ 1) Βj ( t+ 1). 前向算法过程如下: ( i) 初始化: Α1 ( i) = Πibi (o1) ,  1≤i≤N , ( ii) 递推: Αt+ 1 ( j ) = ∑T i= 1 Αt ( i) a ij bj (ot+ 1) 1≤t≤T , 1≤j≤N , ( iii) 结束: P (O öΚ) = ∑N i= 1 aT ( i). 后向变量的计算过程如下: ( i) 初始化: ΒT ( i) = 1,  1≤i≤N , ( ii) 递推: Βt ( i) = ∑N j = 1 a ijbj (ot+ 1) Βt+ 1 ( j ) ,  t= T - 1, T - 2, ⋯, 1; 1≤i≤N , 概率 P (O öΚ)也可用前后向量变量计算: P (O öΚ) = ∑N i= 1 ∑ N j = 1 Αt ( i) a ij bj (ot+ 1) Βt+ 1 ( j ) = ∑N i= 1 a t ( i) Βt ( i). 二、最佳状态链的确定: 如何选择一个最佳状态链Q = q1q2⋯qT , 来解释观察序列O , 常用的算法是 V iterb i 算法. 三、模型参数优化问题: 如何调整模型参数 Κ= {Π,A ,B }, 使 P (O öΚ) 最大. 这是三个问题中最难的 一个, 因为没有解析法可用来求解最大似然模型. 所以只能使用迭代法 (如,Baum 2W elch)法或使用最佳 梯度法. 下面简单介绍V iterb i 算法和Baum 2W elch 算法. V iterb i 算法是动态规划算法的一种变形, 它可用如下递推算法求得 ( i) 初始化: ∆1 ( i) = Πibi (o1) ,  1≤i≤N , 7 1 ( i) = 0, 71第 6 期         段红梅等: 隐马尔可夫模型在语音识别中的应用 © 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved. ( ii) 递推: ∆t ( j ) = m ax 1≤i≤N [∆t- 1 ( i) a ij ]bj (ot) ,  2≤t≤T , 1≤i≤N ,7 t ( j ) = arg m ax 1≤i≤N [∆t- 1 ( i) a ij ],  2≤t≤T , 1≤i≤N , ( iii) 结束: p 3 = m ax 1≤i≤N [∆T ( i) ], q3T = arg m ax 1≤i≤N [∆T ( i) ], ( iv) 路径回溯 (即最佳状态链的确定) : q3t = 7 t+ 1 (q3t+ 1). 由此可用V iterb i 算法求得 P 3 (O öΚ)及最佳状态序列: q31 , q32 , ⋯, q3T . Baum 2W elch 算法可简单描述如下: 令 Νt ( i, j ) = P (q t= S i, q t+ 1= S j öO , Κ) ,  Χt ( i) = P (q t= S iöO , Κ) , 则 Νt ( i, j ) = Αt ( i)·a ij·bj (ot+ 1) Βt+ 1 ( j )P (O öΚ) ,  Χt ( i) = ∑Nj= 1 Νt ( i, j ). 由此可得 Πζ i= Χ1 ( t) ,  aζ ij = ∑T - 1t= 1 Νt ( i, j ) ∑ T - 1 t= 1 Χt ( i) ,  bυij = ∑Tt= 1ot= 0 Χt ( j )∑T t= 1 Χt ( j ).Κυ= {Πζ,A ,B }即是重估后模型参数且 P (O öΚυ)≥P (O öΚ). 213 HMM 的结构和类型 隐马尔可夫模型的结构主要有两种, 一种是各态历经的, 一种是从左至右的, 如图 1 所示. 各态历经 HMM 可以应用于说话人识别、语种辨识等场合, 而语音识别必须用从左至右的HMM [ 2- 3 ]. HMM 的类型主要有连续HMM 和离散HMM 两大类, 主要区别在于参数B . 离散HMM 的参数组 B 是一矢量量化器码矢的概率矩阵, 连续 HMM 的参数组B 是每个状态对应于一贯观察概率密度函 数.      (a)           (b)                   (c) 图 1 HMM 的结构 (a) 各态历经HMM ;   (b) 三转移HMM ;   (c) 二转移HMM 3 基于HMM 的孤立词语音识别系统 下面是一个用HMM 构成的孤立词识别系统的过程的简单描述[ 3 ]. 311 基本思想 设欲识别的词表有V 个词, 为每个词设计一个HMM 模型. 先用VQ (V ecto r Q uan t iza t ion, 矢量量 化——一种数据压缩技术) 技术, 设计一个尺寸为M 的码本 (M 为观察符号数). 然后假定每个词有 K 遍训练数据, 得到最优的模型参数. 与此同时, 用最佳准则得到状态数为N 的状态转移序列. 最后, 对实 际欲识别的语音信号用上面训练所得的模型进行评估, 识别出吻合概率最大的那个词. 312 基本方法 孤立词语音识别必须解决以下问题: 一是对词表中的每个词 v 建立一个HMM Κv , 即用训练集数据 估计参数 Κv = (A v , B v , Πv ) ) ; 二是对每一个要识别的词, 首先经过特征提取到观察矢量序列, O = {o1, o2, ⋯, oT }然而对每个模型 Κv , 求 P (O öΚv ) , 1≤v≤V , 最后选择参数模型的似然度最高的词作为识别结 81 工 科 数 学              第 18 卷 © 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved. 果, 即 v 3 = arg m ax 1≤v≤V P (O öΚv ). 一、模型参数选择 在进行HMM 训练即参数估计之前, 首先应确定模型的类型及选择相应的参数. 对孤立词识别而 言, 由于每个词的实序关系可以通过状态的先后关系来体现, 通常都采用自左至右的模型. 确定了模型 的结构之后, 就要确定模型内的状态数. 根据语音信号的特点, 在小字词表、孤立词识别时, HMM 多采 用自左向右无跨越或有跨越模型. 在若干字的汉字实验中, 状态数取 6 时, 正识率为 94◊ , 状态数取 4 或 8 时, 正识率为 92% , 状态数取 10 时, 正识率为 91% ; 国外的研究结果也表明, 10 个英文数字 (0~ 9) 识别实验中, 状态数取 6 左右效果最好[ 5 ]. 事实上, 英文数字多为单音节, 因此, 从实验上看, 语音识别时 HMM 状态数并非越多越好. 二、分段 K 均值算法 模型的训练是从一个初始模型出发的, 先由初始模型对训练样本进行匹配计算和状态标注后, 便可 估计出一组新的模型参数, 再用新模型对训练样本进行匹配计算和状态标注, 再次估计出更新的模型参 数, 这个过程多次重复直至收敛, 最终得到的模型就是一个优化的模型. 这种算法是由 K 均值聚类算法 与分段状态相结合而来的, 称为分段 K 均值算法. 至于初始模型的产生及模型参数迭代优化过程中的 参数重估方法的描述, 限于篇幅的原因, 就不在此详细说明. 有兴趣者, 可查阅[ 3 ]. 313 孤立语音识别系统框图 无论何种, 孤立词语音识别系统都可用图 2 的框图来表示. 图中, 语声学分析部分主要是抽取 语音特征信息. 它们的载荷形式有时域的特征参数包括过零率、短时能量、基音周期等. 频域的有短时 谱、短时线性预测系数、短时倒谱等. 此外, 这部分还应包括抽取音长、音调、谱相关性、能量等超音段信 息. 这两类信息还要进行压缩处理, 以节省模式存储容量和识别运算量. 模式识别部分是将输入的经压 缩的语音信息与中训练时预存的参考模式进行比较. 若参考模式是随机模型, 则采用时间归正策略 HMM 技术. 参考模式部分存储着训练时得到的压缩过的语音特征参数. 模式识别的结果再经超音段信 息的选择, 得出字词的识别候选者. 后处理器主要是运用语言学知识对识别出来的候选的字或词进行最 后的判决 (如汉语的声调知识的应用等). 4 HMM 的局限性及改进 HMM 技术之所以在语音识别中应用较为成功, 主要是它具有较强的对时间序列结构的建模能力, 尽管如此, HMM 仍然是有缺点和局限性的[ 6 ]: ( i) 对低层次的声学音素建模能力差, 使声学上相似的词易混淆; ( ii) 对高层次语音理解或语义建模能力差, 使其仅能接受有限状态或概率文法等简单场合应用; ( iii) 一阶HMM 假设很难直接用模型描述协同发音 (coart icu la t ion) , 因为HMM 假设输出是相互 独立的, 且依赖于当前状态; ( iv) HMM 需对状态的分布作先验假设, 而这种假设不一定适于语音信号; 91第 6 期         段红梅等: 隐马尔可夫模型在语音识别中的应用 © 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved. (v) HMM 识别系统难以用硬件实现. 隐马尔可夫模型这些缺点或称局限性, 本质原因在于语音信号及语音识别问题的复杂性, 人们为了 研究的方便才作了附加条件的假设. 为了提高语音识别系统的性能, 人们曾相继提出了M HMM (M odified HMM )系统、M S IHMM 系统 (多级识别系统) [ 4 ] , 使得系统识别的准确率不断提高. 近年来, 人工神经网络 (简称ANN , 或简称神经网络)技术以其非线性、自适应性、并行性、鲁棒性及 学习特性并且易于硬件实现等特点而受到人们的极大关注, 并被广泛应用于语音识别领域. 神经网络以 其独特的优点及其强的分类能力和输入——输出映射能力, 使得研究利用ANN 来弥补上面HMM 的 缺陷, 因此也成为一大热点. 将ANN 与HMM 相结合构成混合网络, 能充分应用ANN 强的分类能力, 同时保留HMM 强的时 间序列建模能力. 目前, 在语音识别中应用的由HMM 和ANN 构成的四种混合网络是[ 6 ]: ( i) 用HMM 实现M L P (M u lt i2L ager Percep tron)分类器的时间规整处理; ( ii) 用M L P 计算HMM 的观察概率; ( iii) 用M L P 实现HMM 的算法 (V iterb i 网) ; ( iv) 构造HMM 网. 实验结果表明[ 6 ] , 混合网的性能都优于单纯的 HMM 和ANN 的性能, 此外, 混合网络易于硬件实 现. 可见HMM 与ANN 构成的混合网络是更适于语音识别的方法. 总之, HMM 技术在语音识别应用 中, 已经深入、广泛且不断地发展. 语音识别从基础意义上讲, 仍然是一个尚未真正解决的问题, 仍然需 要进行大量的、多角度的实验和探索, 寻求改进实施语音识别系统总体性能的新途径. [参 考 文 献 ] [1 ] R ab iner L R and Juang B H. A n In troduction to H idden M arkov M odel[J ]. IEEE A SSP M agazine, Jan. , 1986, 4- 16. [2 ] 易克初, 田斌, 付强. 语音信号处理[M ]. 北京: 国防工业出版社, 19981 [3 ] 陈永彬. 语音信号处理[M ]. 上海: 上海交通大学出版社, 19781 [4 ] 陈尚勤, 罗承烈, 杨雪. 近代语音识别[M ]. 成都: 电子科技大学出版社, 19791 [5 ] 张杰, 黄志同, 王晓兰. 语音识别中隐马尔可夫模型状态数的选取原则及研究[J ]. 计算机工程与应用, 2000, (1) : 67 - 69. [ 6 ] 李苇营, 易克初, 胡征. 神经网络与HMM 构成的混合网络在语音识别中应用的研究[J ]. 电子学报, 1994, 22 (10) : 73- 74. The Appl ica tion of HMM in Speech Recogn it ion DUA N H ong 2m ei,  W A N G J un ,  M A L iang 2he,  X U R an (A ir Fo rce L ogist ics In st itu te, Xuzhou 221000) Abstract: T he basic techno logy of HMM is som e k ind of successfu l m ethod in dealing w ith speech recogn it ion. It has a stronger ab ility to bu ild a model of the t im e o rder. T h is art icle in troduces th is basic techno logy and a speech recogn it ion system on som e iso lated w o rds. Bu t there are som e sho rtcom ings in HMM , w h ich lessens the ab ility of recogn it ion. O n th is, th is art icle b riefly in troduces som e refo rm ed HMM speech recogn it ion system s and som e popu lar w ay2the m ix net of HMM and ANN. Key words: random p rocess; HMM ; speech recogn it ion; ANN 02 工 科 数 学              第 18 卷 © 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
/
本文档为【隐马尔可夫模型在语音识别中的应用】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索