为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

语音识别中空间相关性信息的利用

2017-10-23 9页 doc 57KB 11阅读

用户头像

is_037433

暂无简介

举报
语音识别中空间相关性信息的利用语音识别中空间相关性信息的利用 余鹏 ,王作英( )清华大学电子工程系 ,北京 100084 摘 要 : 在语音识别中不同语音单元的语音信号特征之间不是独立的 ,描述不同声学状态信号特征之间的相互 () 关系的信息称为“空间相关性”. 空间相关信息在语音识别参数估计算法 训练和自适应中有非常重要的作用. 本文对 这种相关性作了探讨 ,提出了一种在语音识别中应用空间相关信息的新方法. 我们用线性方程来描述空间相关性所体 现出来的不同语音单元特征之间的依赖性 ,通过分组 K2L 变换的方法来估计这组线性约束的相关系数 ,并给...
语音识别中空间相关性信息的利用
语音识别中空间相关性信息的利用 余鹏 ,王作英( )清华大学电子工程系 ,北京 100084 摘 要 : 在语音识别中不同语音单元的语音信号特征之间不是独立的 ,描述不同声学状态信号特征之间的相互 () 关系的信息称为“空间相关性”. 空间相关信息在语音识别参数估计算法 训练和自适应中有非常重要的作用. 本文对 这种相关性作了探讨 ,提出了一种在语音识别中应用空间相关信息的新方法. 我们用线性方程来描述空间相关性所体 现出来的不同语音单元特征之间的依赖性 ,通过分组 K2L 变换的方法来估计这组线性约束的相关系数 ,并给出一种结 合空间相关信息的训练方法. 实验结果表明 ,空间相关的先验知识对语音识别训练模块的稳健性有明显的提高. 关键词 :语音识别 ; 声学层码本 ; 参数估计 ; 空间相关性 ; 线性约束 () 22112 20020720964203 TP391 A 0372中图分类号 :文献标识码 :文章编号 : U sing Sp atial Co rrelatio n Info rmatio n in Sp e e c h Re co gnitio n YU Peng ,WANG Zuo2ying ( )Dept . of Electronics Engineering , Tsinghua , Beijing 100084 , China Ab stract : In Speech Recognition ,features from different acoustic units are not independent . The correlation between different acoustic units is called“Spatial Correlation”. Spatial Correlation is important for acoustic model estimation. In the paper ,we proposed a new method of using spatial information in speech recognition. We use linear equation to subscribe spatial correlation ,calculate equa2 tion coefficients by K2L transformation ,and develop a new training algorithm with the linear constraints. Experimental results show the new method brings significant improvement in error reduction. Key word s : speech recognition ;acoustic codebook ;parameter estimation ; spatial correlation ;linear constraints 阵 , 称为码本. 在下面的讨论中 , 我们将只考虑码本均值矢量 , 1 引言 如果将说话人的语音识别码本作为概率空间的样本点的 此时一个声学模型可以看成是包含各个状态码本均值矢量的 话 ,那么声学模型参数本身是一组随机变量. 这组随机变量的 一个大矢量. 设声学码本状态数为 NS , 特征维数为 N F , 则声 概率分布描述的是声学模型的不同状态在特征空间的分布情 学模型相当于一个 NS ×N F 维的大矢量 , 我们称这个矢量为况 ,我们称这种模型参数的分布为一种“空间结构”. “码本矢量”, 所在的空间称为“码本空间”, 记作 R.NS ×N F 空间结构信息已经作为先验知识被应用于语音识别自适 在信息论中 , 两个随机变量 A 、B 的相关性可以用他们的 3 4 应算法中. 如在 MAP 算法和 MLLR 算法中 , 利用 Speaker ( ) 互信息 I A , B 来衡量 , 互信息越大 , 相关性越强 , 反之则弱. Independent 模型参数作为先验知识 , 这实际上是空间结构信 ( ) ( ) ( ) 当 I A , B = 0 时 , 表示 A 、B 相互独立 ; 而当 I A , B = H A 2 息中的“均值”信息 ;另一个例子是 MLMI 自适应算法,利用 ( ) = H B 时 , 就表明 A 、B 间存在确定性的相互关系. 直接描述 一组说话人的 Speaker Dependent 模型参数作为先验知识 , 这 空间的概率相关性是困难的 , 但是确定性的相互约束则易于 可以看作空间结构的一个粗略的样本集. 利用. 我们的研究正是针对这种确定性的空间相关约束. 记一 但在以上几例中 ,都没有直接考虑不同声学状态之间的 个声学码本矢量为 C , 则这种确定性的空间相关规律就可以 相关信息. 事实上 ,声学模型不同状态不是相互独立的 ,它们 ( ) , C 所满足的一组方程 , S CC= 0 , n = 0 , 1 , 表示为矢量 n 之间的相关信息对于跨状态的参数估计非常重要. MLLR 算 N T ,其中 N T 表示方程的数目 , 这里每个方程我们称之为一法采用状态聚类的方法将状态分组 ,并对同一组状态采用相 个“约束”. 我们假设这种约束是线性的 , 这样 , 空间相关性就 同的线性变换 ,这可以看作是空间相关信息的一种应用 ,但这 可以表示成为这样的一组线性方程 : 种应用显然是粗略的. NS?N F ( ) b= c?a- b= 0S C= C , A- 1 s 1 s 1 1 1 对于空间相关信息的研究主要问有三个 ,即如何描述 ?s = 1 NS?N F 空间相关性 、如何得到空间相关性和如何应用这种相关性. 本 b= c?a- b= 0( ) S C= C , A- 2 s 2 s 2 2 2 文针对这三个方面的问题给出了一个解决 ,实验结果表 ?s = 1 明采用空间相关信息的新的训练方法对于不充分数据量训练 有明显的效果. NS?N F2 空间相关规律的数学描述形式 ( ) S C= C , A- b= c?a-b= 0 N T N TN T s N T , s N T ?s = 1 正态声学模型参数包含特征均值矢量和它的协方差矩 这里 A?R, b?R , i = 1 , 2 , , N T , j = 1 , 2 , , NS ?N Fij NS ×N F i ) ( 为约束系数 , ?, ?表示 R空间的内积.NS ×N F 965 第 7 期余 鹏 :语音识别中空间相关性信息的利用 i i i i i ) ) ( ( , 得到关于 , e?C′?span e, e, C-′ NS NS - NM+ 1 NS - NM+ 2 3 采用 K2L 方法来得到约束 i 选出一组说话人来组成统计集 , 采用常规的码本估计方 C的′ NM个线性约束.法得到每个人的码本矢量 , 记整个矢量集为 K. 我们的目标是 iNS 找到一组约束 , 使得 K 中的每个码本矢量都符合这组约束. i i i i i i ( ) ( )c′?e= C,′ e= ?C,′ ej NS - NM+ 1 , j NS - NM+ 1 NS - NM+ 1 ?j = 1 从前面我们知道 , 码本空间 R的维数是 NS ×N F , 因 NS ×N FNG 此上一个线性约束有 NS ×N F + 1 个参数 , 这可以看作一个约 i i = c?′?ej NS - NM+ 1 , j ?j = 1 束矢量. 估计这么一个大矢量对数据量的是很高的 , 为此 iNS 我们先对码本空间进行分割 , 将 R分割为较小的乘积子 NS ×N Fi i i + i ( ) ( )c′?e= C,′ e= ?C,′ ej NS - NM+ 2 , j NS - NM 2 NS - NM + 2 ?空间 , 在每个子空间内 , 我们只需估计一个小得多的矢量. j = 1 NG 首先 , 我们假设空间相关性仅存在于语音学中发音相近 i i = c?′?ej NS - NM+ 2 , j ?的状态之间 , 依据语音学知识将声学状态进行分组 , 将发音相 j = 1 1 近的状态分在一组中. 将特征空间表示为 R= RNS ×N F NS×N F iiNS NS i 2 NG ×R× ×R, 其中 NG 为分组的数目 , NS, i = NS×N F NS×N F i i i i ( ) ( ) c′?e= C,′ e= C?′, e= c?′?e j NS , j NS NS j NS , j ??j = 1 j = 1 1 ,2 , , NG 为各组中的状态数. 分组的个数应该根据码本矢由于 C是′ C 的一个截断 , 因此上式也就是 C 的一组约束. 将 量集的大小来定 , 以使在每个子空间内 , 矢量集的大小都足够 所有相关子空间得到的约束组合起来 , 就得到关于 C 的所有 稳健地估计约束矢量. 约束. 进一步 , 如果只考虑同一组状态之间同一维特征的相互 NS ?N Fi 关系 , 子空间 R将再一次分割为N F 个更小的乘积子空 NS ×N F( ) ( ) S C C = C , A - b = c ?a - b = 0 , n = 1 , 2 , , N T n n ? n s n , s n s = 1 i 间 R. 我们将最后生成的小空间称为“相关子空间”. 图 1 解 NS NG i 其中 N T = ?NM 为所有约束的个数.释了码本空间的分割. i = 1 4 利用空间相关约束的码本估计算法 HMM 码本估计算法的原理是找到一组码本参数 ,使得在 这组参数下的 HMM 模型对训练数据能够给出最大的似然 值 , 这是一个最优化过程. ( ( ) )C = arg max P S | C 其中 S 代表训练特征数据. 在这个算法中加入空间相关性约束 , 只须对最优化算法 中加入约束. 即 ( ( ) )C = arg max P S | C 图 1 码本空间、状态分组和相关子空间的关系( ) s. t . S CC= 0 , n = 1 , 2 , , N T n 线性空间中一组线性约束对应于全空间的一个线性流 我们系统采用单高斯 、全协方差矩阵模型 , 训练方法是一 形 , 因此求取线性约束相当于寻找与统计集 K 正交的线性流 个基于欧氏距离的 K 均值算法. 这相当于最优化算法 形 , 这可以借助于 K2L 变换. K2L 变换将全空间分成相互正交N N F NS i的子空间 , 如果某个子空间的特征值为零 , 相当于 K 在这个 i 2 ( ( ) )C = arg min c- si ×N F + j k , j ???子空间上的投影的平均能量为零 , 即 K 正交于这个子空间. i = 1 k = 1 j = 1 在每个相关子空间中 , 首先作 K2L 变换. 记 其中 c表示码本矢量 C 中对应第 i 个状态 、第 j 维的分i ×N F + j NC i T量 , s表示训练数据中对应第 i 个状态的第 k 个矢量的第 j k , j ( ) ( ) R = C′-C′?C′- ?C′/ NC k k ?维 , N表示训练数据中对应第 i 个状态的矢量数目. k = 1 i 为训练矢量的协方差矩阵 , 其中 NC 代表训练矢量的个 当加入空间相关信息后 , 训练算法变为 数 , C′代表训练矢量 C在当前相关子空间上的截断矢量k k N NS N F ii i 2 (即从一个 NS ×N F 的大矢量中取出 NS个分量组成一个小) )( ( sC = arg min c-k , j i ×N F + j ???NC i = 1 k = 1 j = 1 ) 矢量, C= ′ ?C′/ NC 代表截断矢量的均值.k NS?N F k = 1 ( ) s. t . S CC= c?a- b= 0 , n = 1 , 2 , , N T 对 R 作特征值分解n s n , s n ?s = 1 T i ( ) σσΣ(R = E??E= e, e, , e?diag ,, σ), 1 2 NS′1 2 NS 这是个一个凸集上的凸泛函优化问题 , 根据最优化理论 ,T( ?e, e, ) , e1 2 NS′ 这个问题有唯一的最优解 。用 Lagrange 乘子法求得其解如下σ其中是 R 的特征值 , e是对应的特征矢量. 取特征值中最 j j N ii i i i i i σσσ使满足 ,小的几个值 , 不妨设为 ,, NS - NM+ 1 NS - NM+ 2 NS 记s?= ?s/ N , i = 1 , 2 , , NS , j = 1 , 2 , , N F k , j i i , j k = 1 iiNS NS NS?N F( λ) σσλ? < 1 - ??, 其中 是我们预设的门限值. 由 j j v=a?a/ N , n , m = 1 , 2 , , N T ? n , m m , s n , s [ s/ N F ] i i j = 1 s = 1 - j = NSNM + 1 电子学 报 966 2002 年 NS N F λ 从图中可以看出 , 门限值取得比较大时 , 约束数目较??a?s?, n = 1 , 2 , w= b- , N T n , i ×N F + j i , j n n i = 1j = 1 ( 少 ,对效果改善不明显. 而当 取的过小时 ,约束的精确度降 - 1 U = V ?W ,λ低 ,效果也会下降. 因此 , 值取到 019 左右是比较合适的. N T c= s?+ ?u?a/ Ni ×N F + j i , j n n , i ×N F + j in = 1 在最后的解中 , s?是不加入空间相关约束时的码本估计 i , j N T 公式 , 后面一项 ?u?a/ N是空间相关性约束带来的n n , i ×N F + j i n = 1 修正. 求解最后结果时 , 矩阵 V 是一个分块对角阵 , 它的求逆 i i 可以分解成为 NS×NS维的小矩阵的求逆. λ 2 门限值对实验结果的影响图 5 实验结果 以下实验采用的实验数据集是国家 863 高科技提供 6 结论的数据 ,共 77 个文件 ,均为男声数据 ,每个文件 600 句左右. 本文对在语音识别码本估计中空间相关的先验知识的利 实验采用的语音识 别 模 型 是 HMM 模 型 的 一 个 改 进 模 型 用进行了探讨. 通过采用线性约束的形式描述声学状态的空 1 ) (DDBHMM基于段长分布的隐含马尔可夫模型,对每个状 间相关性和利用语音学知识将全码本空间分割为小的相关子 态采用全协方差的单高斯分布来描述 ,特征提取 14 维 MFCC 系数加上能量维和一 、二阶差分共 45 维. 实验中 ,取前 70 个 空间的方法 ,解决了对码本空间结构估计数据量不足的问题 , 文件作为空间相关性训练集 , 后 7 个文件作为测试集. 测试 并给出了在语音识别训练算法中应用空间相关性的算法. 时 ,将 400 句之前留出用于训练说话人相关码本 ,400 句之后 从实验结果可以看出 ,汉语中韵母状态相互之间的约束 用于进行识别测试. 以下给出的实验数据均为声学的误识率. 性要强于声母状态 ,这是因为汉语发音中韵母段往往比声母 利用语音学知识 , 将汉语中的声母分成 20 组 , 形成 900 段发音更为充分且稳定. 对门限值参数实验表明 ,在约束 个相关子空间 ;韵母分成 41 组 ,形成 1845 个相关子空间.较少时 ,增加约束数目可以进一步改善训练效果 ,但当约束太 分别只对声母应用约束 、只对韵母应用约束 、对声母韵母 多时 ,由于约束的精确度下降 ,效果也会下降. 同时应用约束进行实验 ,实验时采用 100 句用于估计说话人 文中采用线性约束的形式来描述空间相关性 ,这使我们 λ相关码本 , 取为 019. 结果如下. 可以直接用 K2L 变换来求取约束参数 ,也给训练算法中的应 表 1 对声母 、韵母分别进行约束实验用带来了方便. 如果采用其他的约束形式 ,如多项式约束 、对 数约束 、指数约束等 ,应能够更精确地描述空间相关性 ,但会 约束m93m94m95m96m97m98m99平均 大大增加算法复杂度. 对空间相关性的研究而言 ,如何找到最 基线025. 126. 719. 535. 127 . 519 . 227 . 725 . 8有效率的描述形式仍是值得讨论的. 这将是我们下一步的研 声母427725. 626. 920. 635. 526 . 219 . 526 . 325 . 8究目标. 韵母1745223. 425. 118. 635. 027 . 118 . 526 . 124 . 8参考文献 : 联合2172923. 325. 119. 435. 225 . 519 . 624 . 624 . 7 . 基于段长分布的 HMM 语音识别模型 A . 第二届全国1 王作英在联合约束的情况下 ,误识率下降了 416 %. 同时可以看 汉字、汉语识别会议论文集 C. 1989 . 到 ,对声母进行约束的效果没有对韵母进行约束的效果好 ,这 王作英 , 刘丰. Speaker adaptation using maximum likelihood model 2 是因为汉语中声母状态一般较短 ,稳定段短 ,过渡段长 ; 而韵 interpolation A ,Proceeding of ICASSP C. 1999 . 母状态则稳定段比较长 ,因此韵母之间的相互约束关系比较 Chin2Hui Lee ,Chin2Heng Lin ,Bing2Hwang Huang. A study on speaker 3 明显.adaptation of the parameters of continuous density hidden markov mod2 λ 改变值 ,分别设定为 01999 、01995 、01990 、01950 、01900 、els J . IEEE Trans. On Signal Processing ,1999 ,39 :806 - 814 . 01800 、01500 产生空间相关约束 ,将约束用于进行测试文件的 C J Leggetter ,P C Woodland. Maximum likelihood linear regression for 4 speaker adaptation of continuous density hidden Markov models J . 说话人相关码本的训练 ,再将训练出的码本用于识别测试. 只 () Computer Speech and Language ,1995 ,9 2:171 - 185 . 对韵母约束进行测试 ,采用 100 句进行码本估计. λ 表 2 门限对结果的影响 作者简介 : λ约束m93 m94 m95 m96 m97 m98 m99 平均 基线0 25 . 1 26. 7 19 . 5 35 . 1 27. 5 19 . 2 27 . 7 25. 8 余 鹏 男 ,1976 年生于上海市 ,1997 年毕0 . 999 732 25 . 1 26. 6 19 . 5 35 . 0 27. 2 19 . 0 27 . 3 25. 7 业于上海交通大学电子工程系 , 获学士学位 , 现 是清华大学电子工程系硕博连读研究生 ,研究方 0 . 995 3507 25 . 0 26. 7 19 . 3 34 . 6 27. 2 19 . 3 26 . 6 25. 5 向为语音信号处理. 0 . 990 5595 25 . 3 26. 9 19 . 3 34 . 5 27. 2 19 . 6 27 . 3 25. 7 0 . 950 13231 24 . 4 26. 4 18 . 6 34 . 4 27. 2 19 . 5 26 . 5 25. 3 0 . 900 17452 23 . 4 25. 1 18 . 6 35 . 0 27. 1 18 . 5 26 . 1 24. 8 0 . 800 21662 22 . 7 25. 0 18 . 6 35 . 2 27. 1 18 . 6 26 . 7 24. 8 0 . 500 26010 22 . 3 23. 7 18 . 8 36 . 0 29. 8 18 . 9 27 . 2 25. 2
/
本文档为【语音识别中空间相关性信息的利用】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索