第 18 卷第 6 期 工 科 数 学 V o l. 18, №. 6
2002 年 12 月 JOU RNAL O F M A TH EM A T ICS FOR T ECHNOLO GY D ec. 2002
隐马尔可夫模型在语音识别中的应用
段红梅, 汪 军, 马良河, 徐 冉
(徐州空军后勤学院, 江苏 徐州 221000)
[摘 要 ] 隐马尔可夫模型 (HMM ) 的基本技术是语音识别中较为成功的算法. 主要是它具有较强的对
时间序列结构的建模能力. 本文首先深入浅出地介绍了HMM 的基本技术和一个基于HMM 的孤立词语音
识别系统的构成方法, 其次, 基于HMM 尚存有一些缺陷, 造成语音识别能力较弱, 为此本文又进一步阐述了
语音识别应用中的几种改进的HMM 系统及目前的热点方法——HMM 与ANN 构成的混合网络.
[关键词 ] 随机过程; 隐马尔可夫模型; 语音识别; 神经网络
[中图分类号 ] O 211162; TN 912134 [文献标识码 ] C [文章编号 ] 100724120 (2002) 0620016205
1 引 言
目前应用最为成功的语音识别系统大多是基于隐马尔可夫模型 (H idden M arkov M odel) 构造的.
如CM U 的 Kai2Fu lee 等研制的 SPH IN X 连续语音识别系统, 对 997 个词在有ö无文法限制的条件下,
识别率分别为 96% 和 82%. IBM 构造的 T ango ra2000 词语音识别系统得到 95% 的识别率. 用HMM 进
行汉语声母、韵母、单音节及连续语音识别, 都得到了很好的性能[ 6 ]. HMM 之所以在语音识别中应用较
为成功, 主要是它具有较强的对时间序列结构的建模能力. 隐马尔可夫模型用概率或统计范畴的理论成
功地解决了: 怎样辨识具有不同参数的短时平稳的信号段, 怎样跟踪它们之间的转化等问题. 由于语音
的信息结构是多层次的, 除了语音特性之外, 它还牵涉到: 音调、能量等超音段信息, 以及语法、句法等高
层次语言结构的信息. HMM 的特长还在于: 它既可描述瞬态的 (随机过程) , 又可描述动态的 (随机过程
的转移) 特性, 所以它能利用这些超音段的和语音结构的信息[ 1- 3 ]. 尽管如此, HMM 技术也存在一些缺
点, 影响了语音识别的能力, 所以HMM 的改进算法及近年来HMM 与ANN 构成混合网进行语音识别
的研究成为热点, 成果引人注目.
本文深入浅出地介绍了 1) HMM 模型技术; 2) 基于 HMM 的一个孤立词语音识别系统; 3)
HMM 的缺陷及改进.
2 HMM 模型技术
211 隐马尔可夫模型 (HMM )定义
HMM 是一种用参数
示的用于描述随机过程统计特性的概率模型, 它是由马尔可夫链演变来的.
所以它基于参数模型的统计识别方法. 它是一个双重随机过程——具有一定状态数的隐式马尔可夫链
和显示随机函数集. 每个函数都与链中一个状态相关联. 隐式过程通过显示过程所产生的观察符号序列
来表示。一个有N 个状态 (S 1, S 2, ⋯, S N )的HMM 可用三元组参数 Κ= {Π,A ,B }表示. 其中
初始分布矢量 Π= [Π1, Π2, ⋯, ΠN ]: 用于描述给定的观察序列O = o1o2⋯oT 在 t= 1 时刻状态 q1 属于
[收稿日期 ] 2001207219
© 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
模型中各状态的概率分布, 即: Π1= P (q1= S i) , i= 1, 2, ⋯,N , 它满足: ∑N
i= 1
Πi= 1.
状态转移概率矩阵A : A = {a ij }N ×N = {a ij û i, j = 1, 2, ⋯, N }, 这里 a ij = P (q j , t+ 1 时刻ûq i, t 时刻) , 是
从状态 i 转移到 j 的状态转移的概率分布; ( i= 1, 2, ⋯, i, ⋯, j , ⋯,N )它满足∑
N
j= 1
a ij = 1.
状态符号观察概率B : B 为观察序列O 中任一观察 (它是随机变量或随机矢量在各状态的观察概率
空间中的分布). 这个分布有离散型和连续型两类, 分别相应于离散HMM 和连续HMM. 对于离散模型
B = {bj k }N ×N 是对应一矢量量化器码矢的概率矩阵; 对于连续模型B = bi (x )是描述状态É 特征矢量分布
的概率密度函数. 在此,N 为HMM 中状态数,M 为矢量量化器码书的大小.
以上就是隐马尔可夫模型的完整的定义及说明. 从定义看出, HMM 与有限状态的一阶马尔可夫链
一样地用初始分布、状态转移概率矩阵来描述有限长随机序列的统计特性, 但他不同于马尔可夫链由每
一观察即可确知当前所处状态, 而是由每一观察仅能估算出当前处于各种状态的概率. 这就是说, 它具
有双重随机性, 是一种双重随机过程. [ 2 ]
212 HMM 的三个基本问题
用HMM 构成语音识别系统或说话人识别系统, 必须解决三个基本问题[ 2, 3, 6 ]: 对于给定的一个观
察序列O = o1o2⋯oT 和一个HMM 参数组 Κ= {Π,A ,B }, 则
一、识别问题. 对于给定O , 求概率 P (O öΚ) 的计算: 设有一语音O = o1o2⋯oT , T 为语音长度 (帧数) ,
模型 Κ产生O 的概率可采用前后向算法 (Fo rw ard Backw ard P rocedu re) 可以使其计算量降低到N 2T
次运算.
定义 前向变量 a t ( i)和后向变量 Βt ( i)分别为
a t ( i) = P (o1, o2, ⋯, ot, q t= sj öΚ) = ∑N
i= 1
a i ( t- 1) a ijbj (ot) ,Βt ( i) = P (ot- 1, ot- 2, ⋯, oT öq t= si, Κ) = ∑N
j = 1
a ijbj (ot+ 1) Βj ( t+ 1).
前向算法过程如下:
( i) 初始化: Α1 ( i) = Πibi (o1) , 1≤i≤N ,
( ii) 递推: Αt+ 1 ( j ) = ∑T
i= 1
Αt ( i) a ij bj (ot+ 1) 1≤t≤T , 1≤j≤N ,
( iii) 结束: P (O öΚ) = ∑N
i= 1
aT ( i).
后向变量的计算过程如下:
( i) 初始化: ΒT ( i) = 1, 1≤i≤N ,
( ii) 递推: Βt ( i) = ∑N
j = 1
a ijbj (ot+ 1) Βt+ 1 ( j ) , t= T - 1, T - 2, ⋯, 1; 1≤i≤N ,
概率 P (O öΚ)也可用前后向量变量计算:
P (O öΚ) = ∑N
i= 1
∑
N
j = 1
Αt ( i) a ij bj (ot+ 1) Βt+ 1 ( j ) = ∑N
i= 1
a t ( i) Βt ( i).
二、最佳状态链的确定: 如何选择一个最佳状态链Q = q1q2⋯qT , 来解释观察序列O , 常用的算法是
V iterb i 算法.
三、模型参数优化问题: 如何调整模型参数 Κ= {Π,A ,B }, 使 P (O öΚ) 最大. 这是三个问题中最难的
一个, 因为没有解析法可用来求解最大似然模型. 所以只能使用迭代法 (如,Baum 2W elch)法或使用最佳
梯度法.
下面简单介绍V iterb i 算法和Baum 2W elch 算法.
V iterb i 算法是动态规划算法的一种变形, 它可用如下递推算法求得
( i) 初始化: ∆1 ( i) = Πibi (o1) , 1≤i≤N , 7 1 ( i) = 0,
71第 6 期 段红梅等: 隐马尔可夫模型在语音识别中的应用
© 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
( ii) 递推: ∆t ( j ) = m ax
1≤i≤N
[∆t- 1 ( i) a ij ]bj (ot) , 2≤t≤T , 1≤i≤N ,7 t ( j ) = arg m ax
1≤i≤N
[∆t- 1 ( i) a ij ], 2≤t≤T , 1≤i≤N ,
( iii) 结束: p 3 = m ax
1≤i≤N
[∆T ( i) ], q3T = arg m ax
1≤i≤N
[∆T ( i) ],
( iv) 路径回溯 (即最佳状态链的确定) : q3t = 7 t+ 1 (q3t+ 1).
由此可用V iterb i 算法求得 P 3 (O öΚ)及最佳状态序列: q31 , q32 , ⋯, q3T .
Baum 2W elch 算法可简单描述如下:
令 Νt ( i, j ) = P (q t= S i, q t+ 1= S j öO , Κ) , Χt ( i) = P (q t= S iöO , Κ) ,
则 Νt ( i, j ) = Αt ( i)·a ij·bj (ot+ 1) Βt+ 1 ( j )P (O öΚ) , Χt ( i) = ∑Nj= 1 Νt ( i, j ).
由此可得 Πζ i= Χ1 ( t) , aζ ij = ∑T - 1t= 1 Νt ( i, j )
∑
T - 1
t= 1
Χt ( i) , bυij = ∑Tt= 1ot= 0 Χt ( j )∑T
t= 1
Χt ( j ).Κυ= {Πζ,A ,B }即是重估后模型参数且 P (O öΚυ)≥P (O öΚ).
213 HMM 的结构和类型
隐马尔可夫模型的结构主要有两种, 一种是各态历经的, 一种是从左至右的, 如图 1 所示. 各态历经
HMM 可以应用于说话人识别、语种辨识等场合, 而语音识别必须用从左至右的HMM [ 2- 3 ].
HMM 的类型主要有连续HMM 和离散HMM 两大类, 主要区别在于参数B . 离散HMM 的参数组
B 是一矢量量化器码矢的概率矩阵, 连续 HMM 的参数组B 是每个状态对应于一贯观察概率密度函
数.
(a) (b) (c)
图 1 HMM 的结构
(a) 各态历经HMM ; (b) 三转移HMM ; (c) 二转移HMM
3 基于HMM 的孤立词语音识别系统
下面是一个用HMM 构成的孤立词识别系统的过程的简单描述[ 3 ].
311 基本思想
设欲识别的词表有V 个词, 为每个词设计一个HMM 模型. 先用VQ (V ecto r Q uan t iza t ion, 矢量量
化——一种数据压缩技术) 技术, 设计一个尺寸为M 的码本 (M 为观察符号数). 然后假定每个词有 K
遍训练数据, 得到最优的模型参数. 与此同时, 用最佳准则得到状态数为N 的状态转移序列. 最后, 对实
际欲识别的语音信号用上面训练所得的模型进行评估, 识别出吻合概率最大的那个词.
312 基本方法
孤立词语音识别必须解决以下问题: 一是对词表中的每个词 v 建立一个HMM Κv , 即用训练集数据
估计参数 Κv = (A v , B v , Πv ) ) ; 二是对每一个要识别的词, 首先经过特征提取到观察矢量序列, O = {o1,
o2, ⋯, oT }然而对每个模型 Κv , 求 P (O öΚv ) , 1≤v≤V , 最后选择参数模型的似然度最高的词作为识别结
81 工 科 数 学 第 18 卷
© 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
果, 即 v 3 = arg m ax
1≤v≤V
P (O öΚv ).
一、模型参数选择
在进行HMM 训练即参数估计之前, 首先应确定模型的类型及选择相应的参数. 对孤立词识别而
言, 由于每个词的实序关系可以通过状态的先后关系来体现, 通常都采用自左至右的模型. 确定了模型
的结构之后, 就要确定模型内的状态数. 根据语音信号的特点, 在小字词表、孤立词识别时, HMM 多采
用自左向右无跨越或有跨越模型. 在若干字的汉字实验中, 状态数取 6 时, 正识率为 94◊ , 状态数取 4
或 8 时, 正识率为 92% , 状态数取 10 时, 正识率为 91% ; 国外的研究结果也表明, 10 个英文数字 (0~ 9)
识别实验中, 状态数取 6 左右效果最好[ 5 ]. 事实上, 英文数字多为单音节, 因此, 从实验上看, 语音识别时
HMM 状态数并非越多越好.
二、分段 K 均值算法
模型的训练是从一个初始模型出发的, 先由初始模型对训练样本进行匹配计算和状态标注后, 便可
估计出一组新的模型参数, 再用新模型对训练样本进行匹配计算和状态标注, 再次估计出更新的模型参
数, 这个过程多次重复直至收敛, 最终得到的模型就是一个优化的模型. 这种算法是由 K 均值聚类算法
与分段状态相结合而来的, 称为分段 K 均值算法. 至于初始模型的产生及模型参数迭代优化过程中的
参数重估方法的描述, 限于篇幅的原因, 就不在此详细说明. 有兴趣者, 可查阅[ 3 ].
313 孤立语音识别系统框图
无论何种
, 孤立词语音识别系统都可用图 2 的框图来表示. 图中, 语声学分析部分主要是抽取
语音特征信息. 它们的载荷形式有时域的特征参数包括过零率、短时能量、基音周期等. 频域的有短时
谱、短时线性预测系数、短时倒谱等. 此外, 这部分还应包括抽取音长、音调、谱相关性、能量等超音段信
息. 这两类信息还要进行压缩处理, 以节省模式存储容量和识别运算量. 模式识别部分是将输入的经压
缩的语音信息与
中训练时预存的参考模式进行比较. 若参考模式是随机模型, 则采用时间归正策略
HMM 技术. 参考模式部分存储着训练时得到的压缩过的语音特征参数. 模式识别的结果再经超音段信
息的选择, 得出字词的识别候选者. 后处理器主要是运用语言学知识对识别出来的候选的字或词进行最
后的判决 (如汉语的声调知识的应用等).
4 HMM 的局限性及改进
HMM 技术之所以在语音识别中应用较为成功, 主要是它具有较强的对时间序列结构的建模能力,
尽管如此, HMM 仍然是有缺点和局限性的[ 6 ]:
( i) 对低层次的声学音素建模能力差, 使声学上相似的词易混淆;
( ii) 对高层次语音理解或语义建模能力差, 使其仅能接受有限状态或概率文法等简单场合应用;
( iii) 一阶HMM 假设很难直接用模型描述协同发音 (coart icu la t ion) , 因为HMM 假设输出是相互
独立的, 且依赖于当前状态;
( iv) HMM 需对状态的分布作先验假设, 而这种假设不一定适于语音信号;
91第 6 期 段红梅等: 隐马尔可夫模型在语音识别中的应用
© 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.
(v) HMM 识别系统难以用硬件实现.
隐马尔可夫模型这些缺点或称局限性, 本质原因在于语音信号及语音识别问题的复杂性, 人们为了
研究的方便才作了附加条件的假设. 为了提高语音识别系统的性能, 人们曾相继提出了M HMM
(M odified HMM )系统、M S IHMM 系统 (多级识别系统) [ 4 ] , 使得系统识别的准确率不断提高.
近年来, 人工神经网络 (简称ANN , 或简称神经网络)技术以其非线性、自适应性、并行性、鲁棒性及
学习特性并且易于硬件实现等特点而受到人们的极大关注, 并被广泛应用于语音识别领域. 神经网络以
其独特的优点及其强的分类能力和输入——输出映射能力, 使得研究利用ANN 来弥补上面HMM 的
缺陷, 因此也成为一大热点.
将ANN 与HMM 相结合构成混合网络, 能充分应用ANN 强的分类能力, 同时保留HMM 强的时
间序列建模能力. 目前, 在语音识别中应用的由HMM 和ANN 构成的四种混合网络是[ 6 ]:
( i) 用HMM 实现M L P (M u lt i2L ager Percep tron)分类器的时间规整处理;
( ii) 用M L P 计算HMM 的观察概率;
( iii) 用M L P 实现HMM 的算法 (V iterb i 网) ;
( iv) 构造HMM 网.
实验结果表明[ 6 ] , 混合网的性能都优于单纯的 HMM 和ANN 的性能, 此外, 混合网络易于硬件实
现. 可见HMM 与ANN 构成的混合网络是更适于语音识别的方法. 总之, HMM 技术在语音识别应用
中, 已经深入、广泛且不断地发展. 语音识别从基础意义上讲, 仍然是一个尚未真正解决的问题, 仍然需
要进行大量的、多角度的实验和探索, 寻求改进实施语音识别系统总体性能的新途径.
[参 考 文 献 ]
[1 ] R ab iner L R and Juang B H. A n In troduction to H idden M arkov M odel[J ]. IEEE A SSP M agazine, Jan. , 1986,
4- 16.
[2 ] 易克初, 田斌, 付强. 语音信号处理[M ]. 北京: 国防工业出版社, 19981
[3 ] 陈永彬. 语音信号处理[M ]. 上海: 上海交通大学出版社, 19781
[4 ] 陈尚勤, 罗承烈, 杨雪. 近代语音识别[M ]. 成都: 电子科技大学出版社, 19791
[5 ] 张杰, 黄志同, 王晓兰. 语音识别中隐马尔可夫模型状态数的选取原则及研究[J ]. 计算机工程与应用, 2000, (1) : 67
- 69.
[ 6 ] 李苇营, 易克初, 胡征. 神经网络与HMM 构成的混合网络在语音识别中应用的研究[J ]. 电子学报, 1994, 22 (10) :
73- 74.
The Appl ica tion of HMM in Speech Recogn it ion
DUA N H ong 2m ei, W A N G J un , M A L iang 2he, X U R an
(A ir Fo rce L ogist ics In st itu te, Xuzhou 221000)
Abstract: T he basic techno logy of HMM is som e k ind of successfu l m ethod in dealing w ith speech recogn it ion. It
has a stronger ab ility to bu ild a model of the t im e o rder. T h is art icle in troduces th is basic techno logy and a speech
recogn it ion system on som e iso lated w o rds. Bu t there are som e sho rtcom ings in HMM , w h ich lessens the ab ility of
recogn it ion. O n th is, th is art icle b riefly in troduces som e refo rm ed HMM speech recogn it ion system s and som e popu lar
w ay2the m ix net of HMM and ANN.
Key words: random p rocess; HMM ; speech recogn it ion; ANN
02 工 科 数 学 第 18 卷
© 1995-2004 Tsinghua Tongfang Optical Disc Co., Ltd. All rights reserved.