隐马尔可夫模型在语音识别中的应用下载_在线阅读_5

is_738492

暂无简介

隐马尔可夫模型在语音识别中的应用第 18 卷第 6 期工　科　数　学 V o l. 18, №. 6 2002 年 12 月 JOU RNAL O F M A TH EM A T ICS FOR T ECHNOLO GY D ec. 2002 隐马尔可夫模型在语音识别中的应用段红梅, 　汪　军, 　马良河, 　徐　冉 (徐州空军后勤学院, 江苏徐州 221000) 　　[摘　要 ] 隐马尔可夫模型 (HMM ) 的基本技术是语音识别中较为成功的算法. 主要是它具有较强的对时间序列结构的建模能力. 本文首先深入浅出地介绍了HMM 的基本技术和一...

第 18 卷第 6 期工　科　数　学 V o l. 18, №. 6 2002 年 12 月 JOU RNAL O F M A TH EM A T ICS FOR T ECHNOLO GY D ec. 2002 隐马尔可夫模型在语音识别中的应用段红梅, 　汪　军, 　马良河, 　徐　冉 (徐州空军后勤学院, 江苏徐州 221000) 　　[摘　要 ] 隐马尔可夫模型 (HMM ) 的基本技术是语音识别中较为成功的算法. 主要是它具有较强的对时间序列结构的建模能力. 本文首先深入浅出地介绍了HMM 的基本技术和一个基于HMM 的孤立词语音识别系统的构成方法, 其次, 基于HMM 尚存有一些缺陷, 造成语音识别能力较弱, 为此本文又进一步阐述了语音识别应用中的几种改进的HMM 系统及目前的热点方法——HMM 与ANN 构成的混合网络. [关键词 ] 随机过程; 隐马尔可夫模型; 语音识别; 神经网络 [中图分类号 ] O 211162; TN 912134　　[文献标识码 ] C　　[文章编号 ] 100724120 (2002) 0620016205 1　引　　言目前应用最为成功的语音识别系统大多是基于隐马尔可夫模型 (H idden M arkov M odel) 构造的. 如CM U 的 Kai2Fu lee 等研制的 SPH IN X 连续语音识别系统, 对 997 个词在有ö无文法限制的条件下, 识别率分别为 96% 和 82%. IBM 构造的 T ango ra2000 词语音识别系统得到 95% 的识别率. 用HMM 进行汉语声母、韵母、单音节及连续语音识别, 都得到了很好的性能[ 6 ]. HMM 之所以在语音识别中应用较为成功, 主要是它具有较强的对时间序列结构的建模能力. 隐马尔可夫模型用概率或统计范畴的理论成功地解决了: 怎样辨识具有不同参数的短时平稳的信号段, 怎样跟踪它们之间的转化等问题. 由于语音的信息结构是多层次的, 除了语音特性之外, 它还牵涉到: 音调、能量等超音段信息, 以及语法、句法等高层次语言结构的信息. HMM 的特长还在于: 它既可描述瞬态的 (随机过程) , 又可描述动态的 (随机过程的转移) 特性, 所以它能利用这些超音段的和语音结构的信息[ 1- 3 ]. 尽管如此, HMM 技术也存在一些缺点, 影响了语音识别的能力, 所以HMM 的改进算法及近年来HMM 与ANN 构成混合网进行语音识别的研究成为热点, 成果引人注目. 本文深入浅出地介绍了 1) HMM 模型技术; 2) 基于 HMM 的一个孤立词语音识别系统; 3) HMM 的缺陷及改进. 2　HMM 模型技术 211　隐马尔可夫模型 (HMM )定义 HMM 是一种用参数

表

关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf 视力表打印pdf 用图表说话 pdf

示的用于描述随机过程统计特性的概率模型, 它是由马尔可夫链演变来的. 所以它基于参数模型的统计识别方法. 它是一个双重随机过程——具有一定状态数的隐式马尔可夫链和显示随机函数集. 每个函数都与链中一个状态相关联. 隐式过程通过显示过程所产生的观察符号序列来表示。一个有N 个状态 (S 1, S 2, ⋯, S N )的HMM 可用三元组参数 Κ= {Π,A ,B }表示. 其中初始分布矢量 Π= [Π1, Π2, ⋯, ΠN ]: 用于描述给定的观察序列O = o1o2⋯oT 在 t= 1 时刻状态 q1 属于　[收稿日期 ] 2001207219 © 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved. 模型中各状态的概率分布, 即: Π1= P (q1= S i) , i= 1, 2, ⋯,N , 它满足: ∑N i= 1 Πi= 1. 状态转移概率矩阵A : A = {a ij }N ×N = {a ij û i, j = 1, 2, ⋯, N }, 这里 a ij = P (q j , t+ 1 时刻ûq i, t 时刻) , 是从状态 i 转移到 j 的状态转移的概率分布; ( i= 1, 2, ⋯, i, ⋯, j , ⋯,N )它满足∑ N j= 1 a ij = 1. 状态符号观察概率B : B 为观察序列O 中任一观察 (它是随机变量或随机矢量在各状态的观察概率空间中的分布). 这个分布有离散型和连续型两类, 分别相应于离散HMM 和连续HMM. 对于离散模型 B = {bj k }N ×N 是对应一矢量量化器码矢的概率矩阵; 对于连续模型B = bi (x )是描述状态É 特征矢量分布的概率密度函数. 在此,N 为HMM 中状态数,M 为矢量量化器码书的大小. 以上就是隐马尔可夫模型的完整的定义及说明. 从定义看出, HMM 与有限状态的一阶马尔可夫链一样地用初始分布、状态转移概率矩阵来描述有限长随机序列的统计特性, 但他不同于马尔可夫链由每一观察即可确知当前所处状态, 而是由每一观察仅能估算出当前处于各种状态的概率. 这就是说, 它具有双重随机性, 是一种双重随机过程. [ 2 ] 212　HMM 的三个基本问题用HMM 构成语音识别系统或说话人识别系统, 必须解决三个基本问题[ 2, 3, 6 ]: 对于给定的一个观察序列O = o1o2⋯oT 和一个HMM 参数组 Κ= {Π,A ,B }, 则一、识别问题. 对于给定O , 求概率 P (O öΚ) 的计算: 设有一语音O = o1o2⋯oT , T 为语音长度 (帧数) , 模型 Κ产生O 的概率可采用前后向算法 (Fo rw ard Backw ard P rocedu re) 可以使其计算量降低到N 2T 次运算. 定义　前向变量 a t ( i)和后向变量 Βt ( i)分别为 a t ( i) = P (o1, o2, ⋯, ot, q t= sj öΚ) = ∑N i= 1 a i ( t- 1) a ijbj (ot) ,Βt ( i) = P (ot- 1, ot- 2, ⋯, oT öq t= si, Κ) = ∑N j = 1 a ijbj (ot+ 1) Βj ( t+ 1). 前向算法过程如下: ( i) 初始化: Α1 ( i) = Πibi (o1) , 　1≤i≤N , ( ii) 递推: Αt+ 1 ( j ) = ∑T i= 1 Αt ( i) a ij bj (ot+ 1)　1≤t≤T , 1≤j≤N , ( iii) 结束: P (O öΚ) = ∑N i= 1 aT ( i). 后向变量的计算过程如下: ( i) 初始化: ΒT ( i) = 1, 　1≤i≤N , ( ii) 递推: Βt ( i) = ∑N j = 1 a ijbj (ot+ 1) Βt+ 1 ( j ) , 　t= T - 1, T - 2, ⋯, 1; 1≤i≤N , 概率 P (O öΚ)也可用前后向量变量计算: P (O öΚ) = ∑N i= 1 ∑ N j = 1 Αt ( i) a ij bj (ot+ 1) Βt+ 1 ( j ) = ∑N i= 1 a t ( i) Βt ( i). 二、最佳状态链的确定: 如何选择一个最佳状态链Q = q1q2⋯qT , 来解释观察序列O , 常用的算法是 V iterb i 算法. 三、模型参数优化问题: 如何调整模型参数 Κ= {Π,A ,B }, 使 P (O öΚ) 最大. 这是三个问题中最难的一个, 因为没有解析法可用来求解最大似然模型. 所以只能使用迭代法 (如,Baum 2W elch)法或使用最佳梯度法. 下面简单介绍V iterb i 算法和Baum 2W elch 算法. V iterb i 算法是动态规划算法的一种变形, 它可用如下递推算法求得 ( i) 初始化: ∆1 ( i) = Πibi (o1) , 　1≤i≤N , 7 1 ( i) = 0, 71第 6 期　　　　　　　　　段红梅等: 隐马尔可夫模型在语音识别中的应用 © 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved. ( ii) 递推: ∆t ( j ) = m ax 1≤i≤N [∆t- 1 ( i) a ij ]bj (ot) , 　2≤t≤T , 1≤i≤N ,7 t ( j ) = arg m ax 1≤i≤N [∆t- 1 ( i) a ij ], 　2≤t≤T , 1≤i≤N , ( iii) 结束: p 3 = m ax 1≤i≤N [∆T ( i) ], q3T = arg m ax 1≤i≤N [∆T ( i) ], ( iv) 路径回溯 (即最佳状态链的确定) : q3t = 7 t+ 1 (q3t+ 1). 由此可用V iterb i 算法求得 P 3 (O öΚ)及最佳状态序列: q31 , q32 , ⋯, q3T . Baum 2W elch 算法可简单描述如下: 令 Νt ( i, j ) = P (q t= S i, q t+ 1= S j öO , Κ) , 　Χt ( i) = P (q t= S iöO , Κ) , 则 Νt ( i, j ) = Αt ( i)·a ij·bj (ot+ 1) Βt+ 1 ( j )P (O öΚ) , 　Χt ( i) = ∑Nj= 1 Νt ( i, j ). 由此可得 Πζ i= Χ1 ( t) , 　aζ ij = ∑T - 1t= 1 Νt ( i, j ) ∑ T - 1 t= 1 Χt ( i) , 　bυij = ∑Tt= 1ot= 0 Χt ( j )∑T t= 1 Χt ( j ).Κυ= {Πζ,A ,B }即是重估后模型参数且 P (O öΚυ)≥P (O öΚ). 213　HMM 的结构和类型隐马尔可夫模型的结构主要有两种, 一种是各态历经的, 一种是从左至右的, 如图 1 所示. 各态历经 HMM 可以应用于说话人识别、语种辨识等场合, 而语音识别必须用从左至右的HMM [ 2- 3 ]. HMM 的类型主要有连续HMM 和离散HMM 两大类, 主要区别在于参数B . 离散HMM 的参数组 B 是一矢量量化器码矢的概率矩阵, 连续 HMM 的参数组B 是每个状态对应于一贯观察概率密度函数. 　　　　 (a)　　　　　　　　　　 (b)　　　　　　　　　　　　　　　　　　 (c) 图 1　HMM 的结构 (a) 各态历经HMM ; 　 (b) 三转移HMM ; 　 (c) 二转移HMM 3　基于HMM 的孤立词语音识别系统下面是一个用HMM 构成的孤立词识别系统的过程的简单描述[ 3 ]. 311　基本思想设欲识别的词表有V 个词, 为每个词设计一个HMM 模型. 先用VQ (V ecto r Q uan t iza t ion, 矢量量化——一种数据压缩技术) 技术, 设计一个尺寸为M 的码本 (M 为观察符号数). 然后假定每个词有 K 遍训练数据, 得到最优的模型参数. 与此同时, 用最佳准则得到状态数为N 的状态转移序列. 最后, 对实际欲识别的语音信号用上面训练所得的模型进行评估, 识别出吻合概率最大的那个词. 312　基本方法孤立词语音识别必须解决以下问题: 一是对词表中的每个词 v 建立一个HMM Κv , 即用训练集数据估计参数 Κv = (A v , B v , Πv ) ) ; 二是对每一个要识别的词, 首先经过特征提取到观察矢量序列, O = {o1, o2, ⋯, oT }然而对每个模型 Κv , 求 P (O öΚv ) , 1≤v≤V , 最后选择参数模型的似然度最高的词作为识别结 81 工　科　数　学　　　　　　　　　　　　　　第 18 卷 © 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved. 果, 即 v 3 = arg m ax 1≤v≤V P (O öΚv ). 一、模型参数选择在进行HMM 训练即参数估计之前, 首先应确定模型的类型及选择相应的参数. 对孤立词识别而言, 由于每个词的实序关系可以通过状态的先后关系来体现, 通常都采用自左至右的模型. 确定了模型的结构之后, 就要确定模型内的状态数. 根据语音信号的特点, 在小字词表、孤立词识别时, HMM 多采用自左向右无跨越或有跨越模型. 在若干字的汉字实验中, 状态数取 6 时, 正识率为 94◊ , 状态数取 4 或 8 时, 正识率为 92% , 状态数取 10 时, 正识率为 91% ; 国外的研究结果也表明, 10 个英文数字 (0～ 9) 识别实验中, 状态数取 6 左右效果最好[ 5 ]. 事实上, 英文数字多为单音节, 因此, 从实验上看, 语音识别时 HMM 状态数并非越多越好. 二、分段 K 均值算法模型的训练是从一个初始模型出发的, 先由初始模型对训练样本进行匹配计算和状态标注后, 便可估计出一组新的模型参数, 再用新模型对训练样本进行匹配计算和状态标注, 再次估计出更新的模型参数, 这个过程多次重复直至收敛, 最终得到的模型就是一个优化的模型. 这种算法是由 K 均值聚类算法与分段状态相结合而来的, 称为分段 K 均值算法. 至于初始模型的产生及模型参数迭代优化过程中的参数重估方法的描述, 限于篇幅的原因, 就不在此详细说明. 有兴趣者, 可查阅[ 3 ]. 313　孤立语音识别系统框图无论何种

方案

气瓶现场处置方案 .pdf 气瓶现场处置方案 .doc 见习基地管理方案.doc 关于群访事件的化解方案建筑工地扬尘治理专项方案下载

, 孤立词语音识别系统都可用图 2 的框图来表示. 图中, 语声学分析部分主要是抽取语音特征信息. 它们的载荷形式有时域的特征参数包括过零率、短时能量、基音周期等. 频域的有短时谱、短时线性预测系数、短时倒谱等. 此外, 这部分还应包括抽取音长、音调、谱相关性、能量等超音段信息. 这两类信息还要进行压缩处理, 以节省模式存储容量和识别运算量. 模式识别部分是将输入的经压缩的语音信息与

模板

个人简介word模板免费下载关于员工迟到处罚通告模板康奈尔office模板下载康奈尔笔记本模板下载软件方案模板免费下载

中训练时预存的参考模式进行比较. 若参考模式是随机模型, 则采用时间归正策略 HMM 技术. 参考模式部分存储着训练时得到的压缩过的语音特征参数. 模式识别的结果再经超音段信息的选择, 得出字词的识别候选者. 后处理器主要是运用语言学知识对识别出来的候选的字或词进行最后的判决 (如汉语的声调知识的应用等). 4　HMM 的局限性及改进 HMM 技术之所以在语音识别中应用较为成功, 主要是它具有较强的对时间序列结构的建模能力, 尽管如此, HMM 仍然是有缺点和局限性的[ 6 ]: ( i) 对低层次的声学音素建模能力差, 使声学上相似的词易混淆; ( ii) 对高层次语音理解或语义建模能力差, 使其仅能接受有限状态或概率文法等简单场合应用; ( iii) 一阶HMM 假设很难直接用模型描述协同发音 (coart icu la t ion) , 因为HMM 假设输出是相互独立的, 且依赖于当前状态; ( iv) HMM 需对状态的分布作先验假设, 而这种假设不一定适于语音信号; 91第 6 期　　　　　　　　　段红梅等: 隐马尔可夫模型在语音识别中的应用 © 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved. (v) HMM 识别系统难以用硬件实现. 隐马尔可夫模型这些缺点或称局限性, 本质原因在于语音信号及语音识别问题的复杂性, 人们为了研究的方便才作了附加条件的假设. 为了提高语音识别系统的性能, 人们曾相继提出了M HMM (M odified HMM )系统、M S IHMM 系统 (多级识别系统) [ 4 ] , 使得系统识别的准确率不断提高. 近年来, 人工神经网络 (简称ANN , 或简称神经网络)技术以其非线性、自适应性、并行性、鲁棒性及学习特性并且易于硬件实现等特点而受到人们的极大关注, 并被广泛应用于语音识别领域. 神经网络以其独特的优点及其强的分类能力和输入——输出映射能力, 使得研究利用ANN 来弥补上面HMM 的缺陷, 因此也成为一大热点. 将ANN 与HMM 相结合构成混合网络, 能充分应用ANN 强的分类能力, 同时保留HMM 强的时间序列建模能力. 目前, 在语音识别中应用的由HMM 和ANN 构成的四种混合网络是[ 6 ]: ( i) 用HMM 实现M L P (M u lt i2L ager Percep tron)分类器的时间规整处理; ( ii) 用M L P 计算HMM 的观察概率; ( iii) 用M L P 实现HMM 的算法 (V iterb i 网) ; ( iv) 构造HMM 网. 实验结果表明[ 6 ] , 混合网的性能都优于单纯的 HMM 和ANN 的性能, 此外, 混合网络易于硬件实现. 可见HMM 与ANN 构成的混合网络是更适于语音识别的方法. 总之, HMM 技术在语音识别应用中, 已经深入、广泛且不断地发展. 语音识别从基础意义上讲, 仍然是一个尚未真正解决的问题, 仍然需要进行大量的、多角度的实验和探索, 寻求改进实施语音识别系统总体性能的新途径. [参　考　文　献 ] [1 ]　R ab iner L R and Juang B H. A n In troduction to H idden M arkov M odel[J ]. IEEE A SSP M agazine, Jan. , 1986, 4- 16. [2 ]　易克初, 田斌, 付强. 语音信号处理[M ]. 北京: 国防工业出版社, 19981 [3 ]　陈永彬. 语音信号处理[M ]. 上海: 上海交通大学出版社, 19781 [4 ]　陈尚勤, 罗承烈, 杨雪. 近代语音识别[M ]. 成都: 电子科技大学出版社, 19791 [5 ]　张杰, 黄志同, 王晓兰. 语音识别中隐马尔可夫模型状态数的选取原则及研究[J ]. 计算机工程与应用, 2000, (1) : 67 - 69. [ 6 ]　李苇营, 易克初, 胡征. 神经网络与HMM 构成的混合网络在语音识别中应用的研究[J ]. 电子学报, 1994, 22 (10) : 73- 74. The Appl ica tion of HMM in Speech Recogn it ion DUA N H ong 2m ei, 　W A N G J un , 　M A L iang 2he, 　X U R an (A ir Fo rce L ogist ics In st itu te, Xuzhou 221000) Abstract: T he basic techno logy of HMM is som e k ind of successfu l m ethod in dealing w ith speech recogn it ion. It has a stronger ab ility to bu ild a model of the t im e o rder. T h is art icle in troduces th is basic techno logy and a speech recogn it ion system on som e iso lated w o rds. Bu t there are som e sho rtcom ings in HMM , w h ich lessens the ab ility of recogn it ion. O n th is, th is art icle b riefly in troduces som e refo rm ed HMM speech recogn it ion system s and som e popu lar w ay2the m ix net of HMM and ANN. Key words: random p rocess; HMM ; speech recogn it ion; ANN 02 工　科　数　学　　　　　　　　　　　　　　第 18 卷 © 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.

本文档为【隐马尔可夫模型在语音识别中的应用】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。

隐马尔可夫模型在语音识别中的应用

热门搜索

历史搜索