为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

言语信息验证系统(可编辑)

2018-02-12 44页 doc 75KB 20阅读

用户头像

is_977556

暂无简介

举报
言语信息验证系统(可编辑)言语信息验证系统(可编辑) 言语信息验证系统 北京邮电大学 硕士学位论文 言语信息验证系统 姓名:焦洋 申请学位级别:硕士 专业:信号与信息处理 指导教师:董远 20090215北京邮电大学硕士学位论文 言语信息验证系统 言语信息验证系统 摘要 从上个世纪的八十年代,说话人身份认证作为模式识别领域类一 个的分支,越来越受到研究人员的青睐.身份认证技术分为文本无关‘. 和基于文本的两种。文本无关说话人认证系统均是基于高斯混合模型 并结合背景模型的,这类系统忽略说话人说话的内容、语言等,因而 其工程...
言语信息验证系统(可编辑)
言语信息验证系统(可编辑) 言语信息验证系统 北京邮电大学 硕士学位论文 言语信息验证系统 姓名:焦洋 申请学位级别:硕士 专业:信号与信息处理 指导教师:董远 20090215北京邮电大学硕士学位论文 言语信息验证系统 言语信息验证系统 摘要 从上个世纪的八十年代,说话人身份认证作为模式识别领域类一 个的分支,越来越受到研究人员的青睐.身份认证技术分为文本无关‘. 和基于文本的两种。文本无关说话人认证系统均是基于高斯混合模型 并结合背景模型的,这类系统忽略说话人说话的内容、语言等,因而 其工程应用价值相对较小。基于内容的身份认证技术是指通过说话人 所讲的内容,来辨析说话人的身份的技术,这种技术相对文本无关的 说话人认证有更强的实用价值,也是本课研究的重点。 本课题着重介绍了言语信息验证技术韶与其密切相关的说话人确 认技术。对于前者,课题中讨论了,和三种传统技术 的性能,并将三者相结合得到良好的系统性能。后者是一种典型的基 于内容的说话人认证系统,也是课题讨论的重点,课题中采用在线废 料模型和多层置信度的方法,并根据对模型进行评测得到的结 果,提出了对不同子词得分赋予不同的权重,并最终有效地提高了传 统的言语信息认证系统的性能。 由于内容相关的说话人认证技术与语音识别技术关系密切,尤其 好的模型是言语信息认证系统的基础,因此本课题中对的训练 进行了讨论,并通过实验得到了用于身份认证系统的模型。 课题的最后将说话人确认和言语信息验证技术相结合,提出搭建 完整的基于内容的身份认证系统的方法,并通过实验证明了其可行 性。 关键字 说话人确认语义信息验证模型语音识别北京邮电大学硕 士学位论文 言语信息验证系统 随 匝 ,. : .? . . . . . . ,.. . , , . . 硫 . . ?翻糨. 仃 . ... ?北京邮电大学硕士学位论文 言语信息验证系统 . ?独创性或创新性声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知.除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 日期:丝里:兰:三 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。保密的学位论文在解密后遵守此规定 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属于保密范围,适用本授权书。 ?夕.上. 本人签名: 日期: 加口’.. 导师签名: 日期:北京邮电大学硕士学位论文 言语信息验证系统 第一章绪论 .课题背景 语音技术是计算机智能接口与人机交互的重要手段之一,在现存的各种生物认证 技术中,作为一种方便、廉价、高效、对人体无副作用的绿色技术,被广泛应用于设 备控制、身份验证等领域.语音技术包括语音识别,语音合成等。 语音识别的研究工作始于二十世纪五十年代,五十多年来随着计算机的广泛应用 和计算机多媒体、电子技术的迅速发展,语音识别技术及其应用研究越来越受到人们 的重视,也取得了一定的成果。在国外国内,具有语音拨号功能的手机、电话等一些 产品已经投入应用。语音识别系统的实用化开发研究成果已达到相当高水平。 语音识别技术从总体上看,可以粗分为语音识别和说话人识别。二者从原理上讲 并没有本质的区别,只是实现的途径和目的不同。本课题所介绍的语音识别系统,目 的是通过利用计算机处理说话人的语音,判断语音的内容,达到类似密码认证的功能。 语音技术无论是作说话人认证还是作语音识别,都遵循着如图一所示的结构。 ?卜圆圆?囤一‘ . 瘳.霍蛰一坝? 图语音识别技术总体结构图 .说话人身份认证概述 说话人认证最早由实验室的提出【,这里我们将其中的说话人身 份认证技术根据识别的内容,如图.说话人认证系统分类所示可以分为两类: 文本无关.的说话人识别 :不规定说话人发 音的文本,模型建立相对比较困难,但用户使用方便,即不需要在给定的文本下发音, 可以说任何的内容;文本相关?的言语信息验 【:在训练时用户需要按照给定的文本发音,这需要系统对此建立相应 的模型,在识别时要求用户也必须按原先指定的文本发音,以比对两种声音模式是否北京邮电大学硕士学位论文 言语信息验证系统 匹配,这里的文本可以是系统固定的也可以是用户自选的。如果这个文本是系统固定 的,则将其称为固定文本的说话人确认 ,另一种情 况称为用户自选密码的说话人确认 。对于 固定文本的说话人确认来说,完全是根据声纹来判断说话人的身份:而在用户自选密 码的说话人确认中,我们还能够根据不同的密码文本来区分说话人。在这一点上,用 户对后者自选密码的接受程度更高,用户感觉越安全。因此在本论文中,主要考虑用 户自选密码的情形。 ???厂??? 兰至仝竺坠.. ..................................... 塑堡尘鲞兰 ..................................... 图.说话人认证系统分类 .评测方法 我们可以将说话人认证归结为这样一个统计假设检验问题,其中零假设风:认 证结果正确,与之对应的是备选假设凰:认证结果错误。说话人认证就是对零假设 进行验证。根据假设本身的性质真/假与假设检验的结果接受/拒绝,可能有四 种结果出现:正确接受、错误拒绝、错误接受和正确拒绝, 如表.所示。这里正确接受率瓜与错误拒绝率之和为,而正确拒 绝率和错误接受率之和也为。 表.假设捡马奎表 这样,要评价一个认证系统,可以只从两个方面来考虑:错误拒绝率和错误接 北京邮电大学硕士学位论文 言语信息验证系统 受率,也被分别称为第一类错误和第二类错误。假设我们用一个得分人来表示认证结 果,系统给定了一个阈值对该得分进行判决,当人?时接受该说话人,当时 拒绝。如图.所示,用户的得分分布和冒充者得分可以认为是一个高斯分布,当给 定阈值时,小于的用户得分分布就被记为错误拒绝率砟,而大于的冒充者 得分分布的累积概率就被记为错误接受率%占,这样有: , ,?纷 . 一西 式. 易秒』去 . 些 印前 式. 厶口』去 这里缛,略表示用户得分的均值与方差,鸬,表示冒充者得分的均值与方差 图.冒充者与用户得分分布 当判决阈值口在不断变化时,易口和厶汐也在不断改变,这两类错误可以看 成是一个以为变量的函数,易单调递增,而%口单调递减。接受工作特性 ,曲线可以反应出这种交换,如图所示。 ,,当冒充者分布与用户得 当易口厶矽时称为等错误率 分分布严格服从正态分布时,可以证明曲线将近似为一条双曲线. 北京邮电大学硕士学位论文 言语信息验证系统 错 ?口 天 拒 绝 率 髓 力错误接受率 图曲线 为了能够使评价曲线更加直线化。可以将图的曲线的横纵轴的错误率 映射为正态分布的差,这样以%口为横轴,易为纵轴的变化曲 线就能近似 用直线表示出来,这种曲线称为检测错误折衷 曲线 ,如图.所示。最初由提出并推广,在现行的说话人确认领域曲线已 经成为了非常标准的评价方式,在我们的系统中,也采用了曲线作为系统的评 价。 ?善蕃善土叠‘墨薯量霍 奢籀董皇罡奄奢薯叠藿 ?确?蝴对??曲脚?硝? 印舯嘲?峨即嘲 图 曲线与曲线 北京邮电大学硕士学位论文 言语信息验证系统 .研究工作概述 整个课题的研究面向电话信道下的基于内容的说话人身份认证.课题的重点在于 以下几个方面: 模型训练:由于言语信息认证系统本质是对内容进行认证,因此一个好的模 型是言语信息认证系统性能的基础.本文中对如何训练一个好的模型进行了讨 论,并采用了声道归一化方法提高模型的性能。 言语信息认证系统:在说话人认证方面,除了利用声纹进行的生 物认证外, 最直接的是利用其密码内容信息验证,此项技术是近年来新兴的说话人认证方式,用 于验证用户的密码内容。从对言语信息表示的分析上看,此项技术和语音识别的关系 很大,这里本论文采用了传统的说话验证方式对语音中的内容进行验证,使用了多层 次的置信度检验公式多层置信度结合研究不同训练次数和不同层次置信度对?系 统性能的影响,并且通过对不同子词在认证过程中对置信度的贡献不同,提出一种计 算子词权重的方法,使系统性能进一步提高。 说话人确认技术:在用户自选密码的说话人识别场合,往往需要直接对声纹 密码进行直接比对,甚至没有其文本信息,同时有可能此系统还要面对跨语种的说话 人确认。为了面对这些挑战,我们采用了传统的说话人确认策略进行研究,这些方法 是:矢量量化技术、动态时间弯折和隐马尔可夫模型。并且通过增强学习 方法将这三种测度融合,得到更好的系统性能。 此外,文中还将说话人确认技术和言语信息认证技术相结合,得 到一个统一的基 于内容的身份认证系统,同时对冒充者对说话人认证系统的攻击行为做了一些分析, 并给出相应的系统测试结果. 北京邮电大学硕士学位论文 言语信息验证系统 第二章特征提取技术 语音信号是一种冗余度很高的随机信号,进行语音信号处理的时候,需要必须经 过特征提取才能有效地降低信号的冗余度,而语音特征的提取又是通过对语音信号的 分析来获得表征语音信号的参数的。因此表征语音信号参数的准确性是语音处理正确 的保证,而提取的语音特征参数的简洁度又成为能否实时提取语音特征的关键。 常用的语音特征有时域特征如过零率、能量等、频谱特征、倒谱特征等。在 语音识别系统中,我们一般使用倒谱特征。根据语音信号的产生模型,语音信号 是激励信号和单位冲激响应的卷积,倒谱运算刀的目的是把 砂颤帕?功 式. 这种卷积运算变成加法运算: 刀量刀,力 式. 此过程包括三步,首先,将信号进行变换,卷积信号变成乘积形 式: :日 式. 再将其取对数,乘积信号变为相加的形式: 】【】【日】日 式. 由于这个信号是加性的对数倒谱,使用起来比较不方便,经常再 经过一次变换成 为时域信号,由于反变换保持加性,因此最后得到 式. 【】一【疗】曼帕石玎帕 这样,一个非线性系统就可以转化为一个线性系统来处理。 . 倒谱特征提取 一多音黼一冈厢一周哆量敷网鲥一? 【............. ............. ............. 。............一 图 倒谱特征提取过程 倒谱的提取首先由啪提出【。在谱估计中有自回归、移动平均、 自回归.移动平均舢队模型三种.模型可以与基于级连无损声管 的语音模型 产生联系,因此被广泛应用于语音处理中.模型性能的讨论大部 分是建立在线性 言语信息验证系统 北京邮电大学硕士学位论文 预测分析的理论上. 将语音信号看成输入序列激励一个全极点系统而产生的输出: 式. 日? 一?一 , 其中,为增益,口』为实数,为模型的阶数.显而易见,这是一个全极点模型, 定义阶的线性预测器: 式. ?口一 事实上,倒谱特征的提取,最核心的问题是求取线性预测方程组的解,在线 性预测分析中,一般采用两端具有平滑特性的窗函数如窗,加窗后的自 相关函数可以表示为: ?.. 式. 七?~‰七 其中,七为短时自相关函数,它仍然保留了自相关函数的特性,即 满足偶函 数的特性,有七足七.同时,。仅与,的相对值有关,而与,的 绝对值无关,因此自相关方程组可以表示为: 式. 兰日七一爿:七,七,,?, 其中,表示模型的极点个数,这个自相关方程组可以理解为,用信 号的前 个样本预测当前的样本值,将其表示成矩阵形式: 兄兄一 民 心 啦 足 兄 足 ?一 兄 式. 码兄 足 ?民一 ? : :兄一 焉 口, 兄 足? 焉一 算法的过程如下: 用自相关法解线形预测系数,一般我们使用列维德宾算法, 初始化,尺 进行迭代运算,对于,?,,做如下的递推运算 ,, ,一 、, 式. 毛 ?‖/矿 北京邮电大学硕士学位论文 言语信息验证系统 式. 一七』 式. 巧方一七粥, ‖砰卜 式. 最终结论 式. ?歹 衫 其中,上标表示预测器的阶数,口:即为第阶预测器的第个预测系 数,’为第 阶预测器的预测残差能量。这样经过递推计算后,可以得到扛,? 各阶预测器的 解。 频率响应反应了声道的频率响应和被分析信号的谱包络,经求对 数后做反傅立叶 变换,得到的便是倒谱系数。倒谱系数与预测系数有如下关系: 式.? %口喜去%书? 气薯去‰夕朋 .感知线性预测系数 ,与.中介绍的类似, 线性感知预测系数 都使用标准的德宾算法计算,并递归的计算线性预测器的系数。不同的是,不是 像式.那样在时域上求解自相关函数,这里的自相关函数是由信号的功率谱作反 离散傅立叶变换得到的,整个的求取过程【如下图所示: ?语音数摆一一???:;~』?;;::;一,:三;习一系数.『;:;云习 。.。.。.........【............。. 【...............一【.............. 舅圈??一囝一囝 图参数计算过程 非线性的频率分布是中最重要的一方面,使用一种三角滤波器组,得到功率 谱。功率谱密度乘以一个曲线,开三次方后得到非线性压缩的谱.最后使用列 泉?自??学位地文 臣亟 雹囤 维书宾算法计算饲谱. 在实验中.参教在唆声情况下,有比较好的效果.因此本课题中采用了此伪 谮参教. .伯道均衡技术 在本课厝中,所有用于训练和识别的语音信号全都是来自电话信道,信道中引入 的噪声和因话筒不同导致的信道畸变,很大的影响了语音识掰的效果.常用的消除信 遒髟响的方法有倒谱均值归一化印曲硼 , 滤波”和倒潜方差归一化酬丑 等. ..相对蕾誊潼? 由于人的声道发声在颇率上的变化速率有一定的范围.因此人耳对在此范国外的 频率变化不是根被甚.基于这种思想,藐们希望在进行语音识别的时候,将频事变化 速率较慢的信号分量噪声、信道畸变等消除以便更好的进行自动语音识别.本谭 题中瘦们使用滤渡,就是这样一种能将非语音信息谴除,提取语音 成分的滤波技术。滤波嚣是一个滤波器.其传递函薮为 式 耳扛:.一?兰?三二?::;二三三二 田 这个滤波嚣是一个带通特性。其中的低通部分用来平滑帧与帧之间由于加窗产生 的跳变.高通部分用来减轻信道带来的卷积噪声。在本课题中.的值取为.. 田滤蛙辛篡响应和频率响应长度:秒 图是滤波罄和倒谮均值减技术的频率响应的比较, 滤波器解决了缓慢时变信道所带来的信道卷积失真问题,而技术去除的是时不变 信遒的影响。方法除了受到的启示外,同时它还是基于某种听觉原理的. 从田”可咀看出。额响的峰值大约在?.同时以上的调制频率成分受北京邮电大学硕士学位论文 言语信息验证系统 到了很大的抑制。 .饲谱均值归一 在语音识别与说话人识别领域,倒谱均值归一技术已经成为了一项非常标准的 信道鲁棒性技术,目的是为了消除信道产生的平稳卷积噪声干扰. 考虑电话信道的卷积噪声将对语音信号的功率谱产生成线性的乘法运算: 式. 日皿 那么信号的倒谱特征将把这种运算变为加法: 式. ,, 假设我们认为信道日具有时不变的特性,即,随时间的变化很小,此时,我 们可以通过计算累积所有倒谱特征的均值来得到这种信道特性,并将其减去。 的实现非常简单,即通过减去一段语音特征的均值来对每?维特征做归一 化处理,公式如下: 式. 毫薯葺一‖ 这里,‖表示其中一维特征的长时均值。 由于技术需要估计语音长时效应中的特征均值,所以无法运用于实时系统 当中。而这种利用相邻帧的滤波器是能够用于实时系统中的。 ..倒谱方差归一 倒谱方差归一化不但考虑到倒谱系数的均值,而且同时能够消除信道所带来的 非平稳的偏移误差,研究表明【引,技术对于信道中的加性噪声具 有抑制作用。 其公式为: 式. 毫‘ 其中,‖表示其中一维特征的长时均值,盯表示这一维特征的长时标准差。 即‖丙一,,‖?吉?薯一‖,?为帧数。 为了还原特征在干净语音状态下的原始分布,以便更好地描述和刻画干净语音 状态下模型,通常需要将归一化的倒谱系数再乘以一个干净语音下各维特征的 方差【嘲,将带噪语音还原为干净语音下的分布,其表达式为: 式. 暑‘五?尤 这里?是干净语音下一维特征的标准差。 言语信息验证系统 北京邮电大学硕士学位论文 .动态差分 倒谱系数求出以后,可以在原有的静态参数基础上加入一些动态信息,即倒谱系 数随时间的变化,常用的有一阶差分?和二阶差分??信息?: 加, 吨孥 课题中取,同理,二阶差分可以在一阶差分的基础上求得: ?:.七窆。一。一?七.肿一‰式. 饿一 ???二』????了?????争????一 ?:.七‘一宅矿 使用差分信息后,对原语音信息的描述更加清晰,系统的性能得到很大提高。 动态特征与静态特征经常结合在一起使用【,组成更高维的特征向量,经常使用的具 有稳健性的特征参数是血心,在采用滤波器后,电话信道下的说话人 识别基线系统通常采用,即参数经过后,再做一阶差分,而 后再做二阶差分,共维的基本声学特征。在文本相关的说话人识别系统 中,二阶差分系数并未表示出特别强的区分能力,因此我们所采用的基线系统是 ..,共维特征向量。 .自相关函数法提取语音基音 基音是指发浊音时声带振动所引起的周期性,而基音周期是指声带振动频率的倒 数。基音的提取和估计是语音信号处理中一个十分重要的问题, 基音的变化模式成为 声调,它携带着非常重要的具有辨意作用的信息。因此,我们将基音周期作为一种语 音特征加入特征向量中,对于提高模型的辨识能力有着非常重要的意义。 基音周期的估计方法大致可以分为三类:波形估计法,相关处理法,变换法.计 算语音信号的短时相关函数,根据相关函数的周期性来获得基音周期的估计,常见 的有自相关函数法、短时平均幅度差函数法、简化逆滤波法 等.北京邮电大学硕士学位论文 言语信息验证系统 ..自相关函数介绍 定义语音信号‘册的短时自相关函数民朋的计算式如下: ? 七? 式. 七?矗肼矗胂七 ? 式中为最大的延迟点数。短时自相关函数的性质: 如里矗是周期假设周期为的,则自相关函数也是同周期函数,即 七七; 民七是偶函数,即民七一七; 当时,自相关函数具有最大值,即是?兄七,并且足等于确定 序列的能量或随机序列的平均功率。 而由于浊音信号的自相关函数具有一定的周期性,在相隔一定的取样后,自相关 函数达到最大值。因此浊音的周期可以利用自相关函数的第一个峰值来进行估计。而 清音的自相关函数类似噪声的高频波形,没有明显的峰值,所以对于清音与噪声不能 检测到基音。 ..基音的提取 下面给出利用自相关函数法提取基音的流程图: 图. 法提取基音的流程图 . 加窗分帧处理 在利用自相关函数法进行基音估计时,必须选择矩形窗作为窗函数。 北京邮电大学硕士学位论文 言语信息验证系统 ?. 中心削波处理 影响利用自相关函数正确提取基音周期的最主要因素是声道的响应部分。如果基 音的周期性与共振峰的周期性相混在一起,则被检测出来的峰值就会偏离原来峰值的 真正位置。如某些浊音中,第一共振峰可能会低于或等于基音频率,如果共振峰的幅 度很高的会,则共振峰的位置会被误认为是基频。 为了克服这个问题,可以使用“中心削波”处理,因为语音信号的低幅度部分包 含了大量的共振峰信息,而高幅度部分包含了大量的基音信息,利用“中心削波”处 理削去信号的低高度部分。中心削波函数为: 叫巴 式. 矗以 卅巴 ,????【 即 ? /. ’ / 图?中心削波函数图 其中,在进行“中心削波”处理中,需要确定,的值。方法为找到语音帧的前 三分之一和最后三分之一内各自的最大绝对峰幅度与,取两者较小的一个 再乘以系数,一般取为%%。 则“中心削波”的输出信号为: 式. 咒【毛 . 自相关计算及基音估计 此时自相关计算的信号是“中心削波’’的输出以册。短时自相 关函数为: ? 式. 七? 民七?儿胁玑朋七 ? 则自相关函数曲线会以一定的距离出来一个峰值,其中,出现的 第一个峰值的位 置即为基音周期的位置。例如,距离零点第个样本的地方出现了 峰值,如果语音 信号的频率是,则基音周期/,基频为。 北京邮电大学硕士学位论文 言语信息验证系统 第三章声学模型训练 声学模型的性能是影响整个语音识别系统性能的关键部分,而后 文中即将讨论的 言语信息验证系统实际上是一个变异的语音识别系统,因此有必要对声学模型的训练 进行一定的讨论。本课题中使用隐马尔科夫模型作为声学模型的,训练基于 ?算法和前向?后向算法,在此基础上,使用声道归一化 ,对模型进行改进,得到性能良好的声学模型. .隐马尔科夫模型理论 马尔科夫模型是由.提出的现在用途十分广泛的一个 统计模型。在它基础上,又发展了各种不同的模型。隐马尔科夫模型【】是 模型的一种,它在语言建模,特别是语音识别中应用特别广泛.尽管有些限 制,但在这个领域仍被认为是最成功的模型之一. 是在马尔科夫链的基础上发展得来的。所谓马尔科夫链,是马尔科夫随机 过程的一个特殊情况,是状态和时间都离散的马尔科夫过程,数学上的定义如下: 随机序列置,在任意时刻,它可以处在状态 靠,它在时刻所处的 状态为,。的概率,只与它在时刻的状态有关,而与之前的状态无关 尸五, 置,,置一毋,?,五吼户置“研。五吼式. 其中 吼,,..岛,吼。?,岛, 知 式. 则称置为马尔科夫链,并称只为步转移概率,表示如下: 式. ,圮 弓,,, 式中,和是介于和之间的正整数,是正整数。当 ,,与无关时, 称这个马尔科夫链为齐次马尔科夫链,此时 式. 日,,七七 本课题中只研究齐次马尔科夫链。当时,弓称为一步转移概率, 记为嘞, 也简称为转移概率。所有转移概率构成一个转移概率矩阵: 北京邮电大学硕士学位论文 言语信息验证系统 : 【‰。吲 都渤 且有 ‘ 式. ?呜 ? 式. ?嘞 此外,还有一个初始概率刀磊,...,%,用来描述马尔科夫链的初始状态。 与普通马尔科夫链不同之处在于,删中每次所观察到的事件并不是与 状态一一对应的,而是通过一组概率分布相联系。我们不能够直接看到状态,而是通 过一个随机过程去感知状态的存在和类型。因此,需要更多的特征来描述一个皿订: :洲中状态的个数。虽然在中状态数是隐含的,但在实际应用中, 它是由确切的物理意义的。以后的讨论中,我们将各个状态简记为,,??】,在 时刻所处的状态为吼. :每个状态对应可能的观察值数目,在普通马尔科夫链中,此数目为,由此 可见马尔科夫链是的一个特例?这里?我们记个观察值为,。%? 观察序列为,?,,,在时刻,观察值为. 牙:初始状态概率,与普通马尔科夫链中的概念相同; :转移状态矩阵,与普通马尔科夫链中的概念相同: 雪:观察值概率矩阵,??,在普通马尔科夫链中,此概率矩阵为行列 值为的矩阵。 式. 肚尸匕圪吼嘭,?/?,?七? 基于这些参数,产生观察序列,?,,的过程可以描述如下: 根据初始状态概率分布石,选择一个初始状态毋, 置观察时间卢 根据当前状态下观察符号的概率分布雪,选择 根据状态转移矩阵,从当前状态『转移到下一个状态『 置卢,如果,则返回第三步,否则结束 这样,我们可以把一个洲记为 名?,膨,乃 式. 言语信息验证系统 北京邮电大学硕士学位论文 可以简记为 名阮彳,一 式. . 的分类 ..按状态转移概率矩阵分类 各态历经型遍历型 各态历经型,是指经过有限的转移步之后,系统能达到任何一个 状态。这样的 的状态转移矩阵中的每一个元素均大于零,没有零元素。显然,各态历经性不 满足时间顺序的要求,只能用于不要求时间顺序的语音信号处理,例如与文本无关的 说话人识别系统。 从左至右型 从左至右模型,就是随时间的推进,状态的转移只能够从左向右或者是停在原来 的状态,而不能出现返回以前的状态。因此,其状态转移矩阵具有如式式.的形 式,它是一个上三角矩阵,即从编号高的状态跳转到编号低的状态的情况不存在.%吗.?% 对考虑时间变化的信号时,利用从左到右的建立模型比较合适,因为它反 应了时序结构,因此,语音识别中一般使用的都是从左到右。 ..按输出概率矩阵分类 离散型 在.中我们介绍的就是离散删。在这种中,每一个状态的输出概率 是按照观察字符离散分布,每一次转移时输出的字符,是从一个有限的离散字符集中 按照一定的离散概率分布选出的。在使用离散型时,需要对语音特征参数向量 进行量化,之后转化成一个符号的码表形式.量化过程中带来的误差会影响识别率, 但是由于其计算量较少,计算速度比较快,因此易于实时实现。本课题中也使用这种 离散。 连续型 由于离散型中的量化误差会影响整个系统的识别性能,为了提高系统的识 别率,又提出了连续概率分布的,简称.在连续中,由于可以 北京邮电大学硕士学位论文 言语信息验证系统 输出的是连续值,不是有限的,所以不能用矩阵表示输出概率而是用概率密度函数 %表示。其中是多维矢量,%一般用高斯概率密度函数: %协.,西南一三一心写一鳓‘式. 另一方面,由于在实际的语音信号处理系统中,往往用个高斯密度函数不足以 描述语音参数的输出概率分布,所以引入了一种。元高斯混合密度函数”,即用 多个高斯概率分布的加权组合来表示输出概率密度函数: %?‰‰ 薹%南一互一‰?:一‰。式. 刍%历?三了唧一互‘‰’?品‘‰’式‘ 这里‰是混合系数,又称分歧概率;‰叫做分歧密度。这种被称为 连续混合密度。对于与说话人无关的语音识别,由于语音参数分 布比较散,所以使用比较多,本课题中就是使用这种。 .模型基元描述 如之前提到的,子词基元分为类音素.单元和声学分割 单元两类. 类音素单元的确定完全是根据语言学上的定义,一个类音素集的构成往往和语言 的特性关系最大。例如,在汉语中,拼音可以作为类音素集构成的基础参考,而在英 语中,音标是最简单的类音素集定义方法。在类音素单元的训练过程中,对于一个词 组,首先将各音素单元做等时间的分割。之后选择所有含有相同音素符号的词组,执 行之前所介绍的训练方法。在迭代过程中,类音素单元的模型被用来改进分割, 而分割的结果继续被用来进行单元的训练,周而复始.因为在词内部,音素之间的分 割往往比较模糊,不像整词与整词之间那么清晰,因此,最后的分割不能保证与相关 的音素定义完全符合。 基于声学分割的单元的训练是从语音出发的一种无监督聚类过 程。首先使用最大 似然自动分割算法将语音资料进行切割,切割后的语音聚类成为相互独立的语音单元 类。只要删的结构能够确定下来,就可以使用标准的删算法计算每类中的每 个语音切割单元的参数,并进行分段均值聚类,不断迭代,产生模型。这种方法的 好处在于充分利用了语音的信息,基元与基元之间的区别比较自然。 北京邮电大学硕士学位论文 言语信息验证系统 在本课题中,我们采用了基于类因素基元的子词定义。在汉语语音识别中,可以 选择的基元包括:词,音节,半音节.,声韵母 /,音素等。其中,在孤立词识别中词基元是一种整词基元,其他 的都可以认为是类因素基元。音素基元在连续语音识别系统中得到了广泛的应 用,并取得了很好的识别性能。但音素并没有反映出汉语语音的特点,而且,相对于 声韵母,音素显得更加不稳定,这一方面给手工标注带来了困难,同时,也给声学描 述带来困难。对于半音节和声韵母,它们在形式和数量上十分接近.半音节就是将音 节分为两部分,而声韵母的划分更依赖于汉语语音学的知识.可以说,声韵母基元是 适合汉语特点的一种识别基元,使用这种基元,还可以有很多语言学知识可以利用. 从而进一步提高声学模型的性能。 声韵母作为识别基元具有以下优点:汉语中的汉字是单音节的,而汉语中的音节 是声韵结构的,这种独特而规则的结构,使对音节,以及词条的表示变得比较规则和 统一。本课题中,考虑了两种基于声韵母的基元构建,一种是与上下文无关的声韵母 基元.也成为双音子.另一种是上下文相关的声韵母基元., 也称为三音子.本文中使用的是双音子模型. .训练算法 ..前向.后向算法 前向后向算法是用来解决的评价问题的,直接计算名的计算量相当 巨大,在的数量级,这是完全不能接受的。 定义前向变量力和后向变量属力分别为: 式. %。?,,吼名 属%,... 毋,/. 前向算法过程如下: ?初始化: 式. 互岛 ?递推过程: , 式. 。?口,%%,. 胁‰小?,?递推结果: ? 北京邮电大学硕士学位论文 言语信息验证系统 ? 式. ?%? 后向变量的计算过程如下; ?初始化: ? 屏仰 式. ?递推过程: ? 式. 属?鹕礁。力,;/ ?递推结果: ? 式. 只妨 扣 这两种算法的计算量大约在脚’数量级,相对直接计算更加高效. ?. 算法 算法用于解决嗍训练问题,即参数估计问题。可以描述 为:给定一个观察值序列,口,?,叶,确定一个石,,功,使最大. 该算法是: 瓢切咄算法的一个特例。最大化过程常常被称为在训 练集 上的训练仃曲。 给定一个训练观察值符号序列,,?,,以及一个需要通过训练重估 参数的模型石,彳,丑,按前向一后向算法,设对于符号序列,,?,, 在时刻从状态转移到状态的转移概率为以力,则以可表示为: 一警篙一, 同时,对于符号序列,:,?,,在时刻时马尔科夫链处于状态的概率 是: 式. 以研叫,名?小丽丛业 , 、” , 、, ,、丹,、 加‰叩,渺俨丽嚣枷, 这样,对于符号序列,%,?,,从状态转移到状态的转移次数的期望 值 为军以,/;而从状态转移出去的次数的期望值为??以,力。由此 得出重估公式 ’‘ 如下: 北京邮电大学硕士学位论文 言语信息验证系统 露 式. 一‘ / 式. 弓,/?以 ? , 式. 亏?以『/?以, 卢 , 气% / 按重估公式估计的参数,直到瓦和%收敛为止。 需要说明的是,语音识别一般采用的是从左到右型的,所以初始 状态概率乃 不需要估计,总是有而江,?,忉。 模型收敛,停止训练的判定方法也很重要。训练太少会使模型不够详细,过训练 会使精度变差。判定方法有两种。求前后输出概率的差值小于某个阈值则停止,或者 规定训练次数,达到次数即停止训练。本课题中采取了前一种方法,取阈值为.。 .声道归一化 声道归一化?的主要作用是消除各个不同说话人之间的声道差异。声道归一 化有很多方法,而比较常用的是分段线性频率弯折法.声道归一化的目标是估计不同 说话人的声道长度即频率弯折因子,然后把不同的声道长度归一化到一个长度, 使得不同人的语音不因声道长度的差异而受到影响。 图声道归一化频率弯折示意图 在模型训练中,通过最大似然估计法,根据已知模型,每个人选择一个弯折因子。 然后再用调整过的数据训练声道归一化模型。 训练一个声道归一化自适应模型,我们采用以下个步骤: 通过对原始的没有声道归一化的模型,该模型的每个状态只包含一个高斯分言语信息验证系统 北京邮电大学硕士学位论文 布进行训练,求出最佳的模型参数。 式? 五鹕呼驻墨形;名. 根据调整好的模型参数,得到每个人的弯折因子。 罩形; 式. 口 这里,?。 通过每个人不同的弯折因子训练新的模型,得到新的声道归一化 后的模型参 数 式御 人爷玎鼻形;人’ 再采用新的声道归一化后的单高斯模型进行弯折因子的新一轮 选择,直到识 别的结果没有更进一步的改善. 整个训练过程示意图如图所示。 否? 图?的流程图 匕豪邮电太《?& 自口?幕% 传统的求解频率变换因子的算法时问复杂度比较大.为了解决一 费时的问题,提出了一种快速的算法四.该算法在基于模型的 系统中引入路径圈用于计算似然值.从而可以大大的减小频率变 换园子求解的计算量。 从理论上来讲,使用计算一帧语音数据似然值时,应该是将组成该 所有高斯分量的似然值累加起来;而实际上,这种景加是没有必要的。对于一帧语音 数据而言.其空间位置可能只会落到几个高斯分量的分布上。因此在计算似然值时, 大部分高斯分量对这一帧最终的似然值时没有贡献的。基于这一原理,我们对 模型引入了近邻高斯图,印为中的每一个高斯分量找出与其距离最相近的 其它个高斯分布。这样在第一次计算一段语音数据似然值时,可阻将每一帧对应的 最近邻的个高斯分布的序号存储起来。以后再计算该段语音致据似然值时。只需 要读出每一桢对应的最近邻高斯分布序号井计算似然值后累加即可. 要得到近邻高斯图.首先要计算高斯分布之问的相似度。表征两个高斯分布 之间相似度常用的是分歧的方法.但这种方法对于两个不同方差的高斯分布计算出 来的相似度常常不准确,凼此幸研究中采用两个高斯分布之间的 重叠部分太小如图 所示作为衡量其相似度的标准。 言蓥?暑芷 以厶 两个单高斯分布‘’和‘”砷间的重叠部分大小可以定义为 式., 【’.‘’.。.”砷,‘’脯 由于在语音识剐模型中,其高斯分量一般都是采用对角协方差矩阵的高维高斯 分布。采用对角协方差矩阵意味着各个维度之问是相互独立的.因此两个多维高斯分北京邮电大学硕士学位论文 言语信息验证系统 布间的重叠部分大小可以直接由各个分量单高斯间的重叠部分大小累加得到,即 ‘‘.‘’.?伙薪’.,硝’. ,窜 其中.代表多维高斯分布 ?,.是其第个单高斯分布?毛鲳,。。 采用以上的相似度衡量准则, 即可为中的每个分量找到最近邻的个分 量,所有分量的最近邻分量可以组成一个.近邻高斯图,.近邻高斯图是本课题中 快速算法的核心。令为初始化模型,则快速算法流程如下: 为所有说话人设定初始化变换因子口. 为当前的产生.近邻高斯图 对于每段语音数据,使用上一步生成的.近邻高斯图为其找出每一帧对 应的近邻的个高斯分布序号,并保存为 根据以下准则来搜索最优的频率变换因子 矿 , 式. 口 采用上一步求得的最优频率变换因子对训练参考模型的数据进行变换, 并训练出新的参考模型 令‖,名名‘,回到步骤直到收敛 .实验结果与分析 ..语科库描述 在子词的模型训练中,使用了基于年《人民日报》文字的语料库。本库的 文字资料来自于报纸,提取了年人民日报》全年文字中,长度在?个字之 间的,从中随机抽取了句构成基于年‘人民日报》文字的语料库简 称年库,分人进行录音,每人旬固话语音,句手机语音。训练模型 时,使用了其中个人的录音数据。 ..模型性能 这里,定义三种错误方式: 、添加错误:识别结果中在某两个本应前后相连的符号中间加入了新的符号 、删除错误:识别结果中缺失了本应出现的一个符号 、替代错误:识别结果中以某另~个符号代替了本应出现的一个符号 将删除错误和添加错误的代价定为,将替代错误的代价定为,从左到右动态 比较两字符串。得到代价最低的匹配方式后,统计其中的三种错误的数量。然后,采北京邮电大学硕士学位论文 言语信息验证系统 用如式式.的计算方法作为最后的正确率. 式. 正确率??弋一×% 式.中代表标准结果中的基元个数,代表删除错误个数,代表替换错 误个数,代表添加错误个数。 我们将错误类型分为音素级别和音节级别,由于一个音节由一个或多个音素构 成,因此,音节数目要比音素少,一个音素的错误会导致整个音节的错误,因此,一 般情况下,音节的错误率要比音素的错误率高。下表表示了使用不同特征时得到的错 误率,其中,将使用加入一阶差分?和二阶差分??信息特征作 为整个实验 的基线,参数表示倒谱能量。 表.不同特征对模型性能的影响 特征 音素错误率% 音节错误率% . . . . . . 由于语音中会有比静音模型还要短时的静音短,因此我们将静音 模型的三个状态 中的第二个单独提出作为短暂停模型 ,加入的模型 后,错误率进一步下降,如表. 模型对系统的影响所示. 表? 模型对系统的影响 注释 音素错误率% 音节错误率% . . 没有模型 . . 加入了模型 实验中涉及到三种不同的声道归一化方法,包括简单的依据性别 的,传统 的和.中提出的基于的快速。我们将这三种算法分别应 用于加入和没有加入的模型,测试得到的结果如表.和表所示。 表.算法对没有加入的模型的影响 注释 音素错误率% 音节错误率% . . 没有模型的基线 . . 传统的 . . 基于性别的 . . 快速言语信息验证系统 北京邮电大学硕士学位论文 表.算法对加入的模型的影响 注释 音素错误率% 音节错误率% . . 使用模型的基线 . . 传统的 . . 基于性别的 . . 快速 可以发现,这三种方式都不同程度的提高了模型的识别性能。传统的声道 弯折方法相对复杂,而且性能也不如简单。相对传统.来讲,快速 的速度提高的非常明显,但是其性能相对传统要略差一些。简单的依据性别 的,对于男性和女性的声音分别使用固定的弯折因子,分别为.和.,这 种方法被证明是有效的并且易于实现。 表标为粗体的模型是所有模型中性能最佳,因此,本科题中后面涉及到言语 信息验证系统的实验中均使用此模型。北京邮电大学硕士学位论文 言语信息验证系统 第四章言语信息认证系统设计 .系统概述 ,瞄】是身份认证系统的一种,指 言语信息验证 在用户在已注册其个人文字信息的前提下,通过验证未知说话人所说出的语句是否和 注册文字内容相同,来判断说话者是否是真实用户的一项技术。若语音内容通过核实 正确,则用户被认为是目标用户,否则会被认为是冒充者。 言语信息验证技术与传统的说话人认正 技术不同在于它不是 依赖于声纹信息而是一种依赖于内容的认证方式。一个?系统一般要求用户的注 册文本信息是用户的个人信息包括姓名、生日等个人密码,使用这些信息不但可以对 用户的身份进行认证,而且在注册时能够保证语音的正确性。所以,其重要的应用是 银行帐户、信用卡的认证领域,不但可以独立使用,还可以与传统的说话人认证技术 相结合,提供更高的安全性。 ?系统首先由实验室提出,后来被引入到中文语音认证中。其实现方式总 体上讲有两种,即自动语音识别 的方法和语句 验证 ,的方法。其中前者将未知语音信号经过自动语音识 别,用其识别结果与用户注册的文本相比较,这种方法的缺点在于不能有效的利用用 户的注册信息。因此,多数文献都以语句验证的方法实现系统。在语音确认的 相关研究中,在基于英语的系统中使用了多层置信度相结合的方法达到了较好的效 果。 ?是校验所说的语段与存储的一个已知的个人数据特征相比较的过程。? 技术通过在对话过程中提问来校验用户,图.是?技术的一个例子。它与普通电 话银行操作过程相似:提供了一个账号之后,操作员通过问一些个人问题来确认用户。 用户必须正确回答这些问题才能访问他自己的账户。问题可以由文字语音转换系统 或者录制好的语句提供。北京邮电大学硕士学位论文 言语信息验证系统 雾 正确 锻 讽..、。.。一 正确 错误 / 、‘、. 请说出你的电话号码 于绝 亘画递蔓亟王茎 /’。’ ’’., 正确 错误 ,』/ 扯绝 窆 玉 ....................................................... 图言语信息验证系统 ..语义验证 对于?系统来说,系统询问的问题与其性能有着很大的关系.因为问题所对 应的答案有多种多样。比如一个简单的问题是“你最喜欢的数字是什么或者幸运数 字是什么’,那么这个问题的答案只有十种,一个完全不知道“先验知识一的冒 充者猜对答案的可能性有%,对于一个高安全性的系统来说,这个问题显然是一个 。弱一问题,不满足实际要求。 从一般的情形上来讲,假设语音识别的正确率是口,猜对问题答案的后验概率 为刁,那么对于这个问题的错误拒绝率就是一口,错误接受率是 /一,?一口?/,,,也就是说系统的与语音识别的准确率有关, 则与猜对密码的概率有关。 为了提高系统的性能,我们就需要从语音识别的正确率和问题答案的可能性这 两方面进行考虑。假设我们让用户使用自选的密码作为内容,判定准则是没有音节错 误,在这种情形下,冒充者猜对密码的可能性几乎为零,因为对于汉语来说,一个字 可能的拼音有多种,若计算带调拼音,则有多种,假设一个用户的密码有北京邮电大学硕士学位论文 言语信息验证系统 也就 六个拼音构成,则冒充者猜对其拼音的可能性最大不超过/牟.‘, 是说系统的岛.‘,但是错误接受率是多少呢以目前汉语语音识别的技术 在%左右,在没有 水平上看,电话语音的拼音识别的错误率 任何语法规则限定的前提下,那么要满足判定准则,通过语音识别判断出真正用户的 %, %,也就是说系统的错误接受率高达职 语音密码的正确率是?. 尽管现在语音识别技术还在发展。但是对于整个句子的正确率仍然很难超过%,特 别在电话信道下实现这一点还有很长一段路要走。因此我们无法用一个严格的全部文 本匹配的约束来保证用户的密码正确。 ..系统结构 文章中采用的基于语句验证的言语信息验证基本结构如图睨所 示。整个系统分 为强制对齐 .子词验证,整旬级别验证三个部分。首先语音信号 经过前端处理得到语音特征后。系统用注册的子词串和子词声学模型对语音特征进行 强制对齐,而后得到每个子词的边界,然后,系统将利用这些边界信息对每个特征片 段进行子词级别的置信度验证,得到一系列的子词置信度,其次再由这些子词置信度 得到整句置信度后.最后依据一定的判决准则判决该语音能否被接受。 注册的子词串 . 语音 子词边界 得分判决卜 特征 ? 子词声学模型 一? ?.?一 图?言语信息验证系统基本结构 .置信度检验 已知一个译码子词瓯在一个语音片段吼中,我们要将这个子词分 配为假设%或 者,需要一个假设检验的规则,这里使用引理进行假设检验,因 为它是对边界测试问题最有效的一种判决测试:北京邮电大学硕士学位论文 言语信息验证系统 抓 心跳,驴黜黜 这里,饥假设的是实际语音罐,是由子词构成,甄是其相反的假设,即罐。是由不 同于子词的其他子词墨构成的。在得到每个子词的似然值后,求整句对数似然值 矿;形的传统方式是将每个子词对数似然直接相加,即: 式. 矿;矽?从啡,; 这里,表示句子中子词的个数。 式中的尸罐.;墨可以直接通过算法得到,而关于尸罐。墨的计算, 很多文献给出了不同的策略,本文中采用了在线废料模型的方法.并且为了更好的 计算户。;墨和::。墨,我们使用了双层置信度检验方式. 在求整句对数似然值时,考虑到不同子词的可信度存在差别,我们提出了对于不 同子词给予不同权重的方式以提高系统的性能。 ..在线废科模型 在线废料模型 最早在【中被提出,并被广泛使用于关 键词检测中。其基本思想是利用解码时每帧语音数据的个备选子词概率,通过其 算术平均或者几何平均的方式求得研豆,文献【蚓中提出区分对待前选对 喏。墨的贡献的方法,其公式为: . ? ; 式. 粥写’志,毛四。 在式式.中,当越小时,前选的得分贡献就越趋于平均,反之越大,则 备选子词随着其位置的降低其贡献越弱。这里我们取..根据假设检验,帧级别 验证的表示为: 式. 吩 母”,, 这里口;碍”表示帧的子词检测似然比,解码过程中,;研”能够在线的 ,为: 被计算出来。我们定义其对数似然比 式. ;墨; 这里的动态范围是一,佃,为了增强其稳定性,防止过大或过小的 带来的不稳定音素,我们使用函数来对进行变换,即: 式. 一口一‖ 互哆雨面赢两 其中,盯和‖分别表示函数的尺度和中心位置,这里取口,声。言 语信息验证系统 北京邮电大学硕士学位论文 经过变换,对数似然在其指数变换域上就能够符合的 分布,其本身可以直接相加求得联合概率。在实际应用中,为了计 算方便,我们对 函数进行分段处理,在某些区间内将其线性的表示: 口?,比 “尺
/
本文档为【言语信息验证系统(可编辑)】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索