为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

在汉语语音识别中语速、音量和音调调整的研究(已处理)

2017-09-27 39页 doc 70KB 103阅读

用户头像

is_995397

暂无简介

举报
在汉语语音识别中语速、音量和音调调整的研究(已处理)在汉语语音识别中语速、音量和音调调整的研究(已处理) 在汉语语音识别中语速、音量和音调调整的研究 西安电子科技大学 硕士学位论文 在汉语语音识别中语速、音量和音调调整的研究 姓名:周? 申请学位级别:硕士 专业:计算机系统结构 指导教师:王闵;范京 2002.1.1搁要 / 入耳听力具有较强的臼适应调整能力,其对发音人语速的快慢、音量的大 小和基频的高低的白适应调整能力是非常高的。目『口的语音识别系统本文 中主 要是指的 语旨识别系统对语速、音量和音调都具有一定的自适应 调整能力,,但对于不同的发裔...
在汉语语音识别中语速、音量和音调调整的研究(已处理)
在汉语语音识别中语速、音量和音调调整的研究(已处理) 在汉语语音识别中语速、音量和音调调整的研究 西安电子科技大学 硕士学位论文 在汉语语音识别中语速、音量和音调调整的研究 姓名:周? 申请学位级别:硕士 专业:计算机系统结构 指导教师:王闵;范京 2002.1.1搁要 / 入耳听力具有较强的臼适应调整能力,其对发音人语速的快慢、音量的大 小和基频的高低的白适应调整能力是非常高的。目『口的语音识别系统本文 中主 要是指的 语旨识别系统对语速、音量和音调都具有一定的自适应 调整能力,,但对于不同的发裔人来兑这些自适应调整能力都是不够的,往往 在识 别那些语速过快或过慢、音量过大或过小和音调过高或过低的语音的时候得 到的 识别率都比较低本文主要介绍了作者针对这一问所作的关于语音调整的 技术 与方法的研究工作,其中包括根据汉语语音发音时每一个音节都含有元音, 元音长度占音节长度的主要部分但是却不包含发音的主要信息这些特点,提出在 语音的元音部分利用相关系数寻找相似波形,然后对元音部分进行几个相似波形 的压缩或扩展的方法来改变元音的长度进而调整语速。通过计算语音有声区 平均振幅并根据这个平均振幅改变有声区内采样点振幅的方法来调整音量。 根据元音自关函数具有周期性并且其周期就是语音基音周期这一特性,提出在保 持语音波形总体不变的前提下,在语音时域上对语音进行插值或删值的方法来调 整音调。 关键字:语音识别语音语速语音音量语音音调 ,. ’. , , . , ‘ ,: , ’ 【】 , ’.,.】? . ’ 【 , . .:第一章绪论 第一章绪论 本章介绍了语音识别的发展过程及现状,简述了本文的主要内容及论文的章 节安排。 ?.语音识别的概况 一、 语音识别的历史与发展 语音识别是将音频数据转化成文本或者其它形式的计算机可以处理的信息。 它的研究目标是让机器“听懂”人类述的语言。听懂有两种含意,第一种是将 这种口述语言‘逐词字逐句地转换为相应的书面语言即文字,第二种则是对 口述语言中所包含的要求或询问做出正确的响应,而不拘泥于把所有词下确转换 为书面文字。语音识别和语音合成相结合,即构成一个“人.机通信系统”。促使 科技界和工业界投入大量的人力和财力来研究语音识别的动力是信息产业迅速发 展的迫切要求,其中包括计算机、办公室自动化、通信、机器人等等。作为一个 专门的研究领域,语音识别又是一门交叉学科,它与声学、语音学、语言学、 人 工智能、数字信号处理理论、信息理论、模式识别理论、计算机科学等众多学科 紧密相连。语音识别经过四十多年的发展,已经显示出巨大的应用前景,高性能 的语音识别系统相继问世。 语音识别起始于年代。年代末和年代初语音识别最重要的发展是语 音信号线性预测编码技术和动态时间规整技术的发展【】,它有 效地解决了语音的特征提取和不等长匹配问题,对特定人的语音识别特别有效。 年代的语音识别研究的重点之一是连接词语音识别,各种连接词语音识别 算法被不发,如多级动态规划语音识别算法。另一个重要的发展是语音识别算法 从模板匹配技术转向基于统计模型技术。人们研究从微观转向宏观,不在刻意追 求细化语音特征,而是更多从整体平均统计的角度来建立最佳的语音识别系 统。进入年代之后,在细化模型的、参数的提取和优化、以及系统的自适 应上取得了一些关键进展。语音识别技术进一步成熟,并开始向市场提供产品。 我国的语音信号处理包括语音、识别和合成学科的科学研究,在 年代后兴起。从年代到年代中期,通过大量吸收国外发表的资料引进理论 技术移植到汉语,进行识别实验研究和算法改进。从吸收的资料得到的实验数据 及建立的系统都有一定的理论意义。年代中到年代,在基础理论研究和实现 技术上有较大的进展,逐渐走出一条适合汉语的路子,缩小了与国际水平的差距。 主要体现在以下几个方面:开展了汉语连接词、连续语音、中大字表、非特定 话者语音识别及话者识别的研究。与汉语语音学密切结合,注意利用汉语特点,汉语语音识别中语速、音鼙氰晴凋调辂的研究 不展了汉语普通话音节识别、四声识别、声母韵母及声韵过渡区的自动分段和识 别,汉语超音段特征的利用及后处理器等研究。对国外流行的理论和技术步步 深入进行发展改进,探索新的识别理论和技术。通过多年的努力,有了很大的 发展,其中语音识别占了较大的比重,目前我国对大词汇量连续语音识别系统的 研究已经接近国外最高水平。在汉语的语音识别中,虽然为了提高语音识别率对 语音有一些自适应地调整,但是对于语速、音量和音调调整的具体研究比较少, 所以对该领域地研究具有很高的实用价值。 ?.本文主要工作的简介及章节安排 笔者在本次毕业设计中,从事的研究课题是由国家自然科学基金项目资助的 汉语语音识别中语速、音量和音调调整,具体研究内容就是在低噪声的实验条件 下对一些识别率较低的汉语语音通过语音、音量和音调的调整来提高这些语音的 识别率。 在实际使用 语音识别系统进行汉语语音识别的时候如图. 所示发现,在同一台计算机上,同样的噪声环境下,不同的人在完成相同的口 音适应训练后,系统的正确识别率有所不同。归纳原因主要为:各人的发声频 率不同。说话人的频率过低或过高会造成识别率的下降。说话方式不同主要 是语速和音量不同。语速过慢会造成如下情况:说话者要识别的是单字,但识别 结果可能会是几个字。例如:说话者想识别的是“”,但识别结果却可能是“”。 语速过快、音量过大或过小同样也会造成识别率的下降。普通话的程度不 同虽然年的新版可以识别上海、广东、四川等地方口音,但普通话 是否标准还是一个要考虑的原因。 语音输入??一语音识别系统?.识别输出 ............................................................... 图. 在以上个会造成识别率下降的原因中,只有第个原因造成的识别率低的 语音是无法通过调整而使识别率提高,前两个都可以通过调整语音而使识别率得 到提高。在本文中为了提高某些语音的识别率,就在语音识别系统前面加了~个 语音调整过程,采用如图.所示的识别系统。 语音输 识别输出 图.本文采州的识别系统第一章绪论 一、本人主要工作 根据上面所讲内容,本人所作的主要工作包括以下几个部分: 整个软件系统的整体规划,包括操作系统、开发语言的选择,软件系统的分 析和模块的划分; 软件用户界面及风格的统一设计; 使用对多个实验语音进行识别,因为有些语音语速、音量和音调超出 识别系统的适应范围而导致其识别率下降,对于这些语音在语速、音量和音调 方面的闽值参数进行统计; 根据汉语语音发音特点以及元音在整个发音中的作用,提出在元音部分调整语 速的方法:通过调整有声区内语音采样点的振幅来调整语音的音量;根据元音 短时自关函数的周期性,提出在语音时域调整音调的方法;根据阈值参数和 输 入语音具体参数,来决定在语音识别之前是否进行语音语速、音量和音调的调 整。 二、论文章节安排 本文章节及内容的安排如下: 第一章绪论 概述语音识别的历史、发展和研究方向,介绍本人的主要工作和章节 安排。 第二章~第四章 在这三章里分别详细介绍了调整语速、音量和音调的设计及实现细节 和所涉及到的语音信号数字处理方面的相关技术基础。 第五章实验的结果和结论 介绍了本次实验的软硬件环境,以及 语音识别系统的基 本使用方法,最后给出了实验结果和结论。 第六章结束语 对本人己完成工作及有待改进工作的总结。汉语语音识别中语速、音量和音调凋整的研究 第二章语音语速的调整 本章首先介绍了语音调整总体的框图,然后在接下去的几个小节罩介绍调整语 音语速所需的基本理论和各种算法,在最后一个小节里介绍了调整语音语速 的具 体方法。 ?.语音调整的总体框图 本文中的语音调整是指对用识别所得到识别率较低的那些语音在语 速、音量和音调三个方面进行调整。语音调整的目的是为了提高本来识别率较低 的语音的识别率。总体过程包括首先用扬声器录入待提高识别率的语音,读取声 音文件的数据后经过各种语音调整,再利用识别系统进行识别。下面是 整个语音调整的框图。 录入待识别的 语音 正确读取声音 文件的数据 语音语速的调整 语音音量的调整 语音音调的调整 测试调整的结果 图.语音调整的总体框图 框图中的录入语音部分只是简单地通过麦克风录入一个语音文件,而要『确 地进行语音的各种调整就必须『确地读取录入语音的语音数据,下面就对读取语 音数据的方法做一介绍,其它各章也都涉及到了读耿语音数据,可以参考以 下内第二章语音语速的凋整 容,其它的象语音另外两种调整将在接下来的两章中进行详细地介绍。 一、声音文件的格式 声音文件是操作系统广泛采用的一种声音文件格式,它是使用资源交换文件 的格式描述的,在本文中 录入语音数据后也是存为声音文件。要利用文件格式的文件头信息有效 地读取语音文件的声音数据就必须知道格式文件的构成,所以有必要对 格式文件做一介绍。它主要出文件头和一系列的数据结构构成,具体的格式 如下 单位为: 文件头部分: ,,, 字符,标明了该文件为文件 ,, 全文件长度,为其后的数据类型和数据格式及所有数据块 的长度之和 :数据类型,表明了存储在这个文件中的数据格式,对 的波形音频文件数据类型为“” 数据格式: ,,, 格式标识,其内容为“” ,,, 音波类型,也就是格式段长度,对采样类型的音波文 件,其值一般为 , 文件格式标志,表明文件格式的种类数,其值目前 都为 , 声道数目 是单声道 是双声道 采样频率,记录了每秒采样的样本数。标准格式:; ;。若取其它值,则是非标准格式。 ,, , 每秒采样字节数,对采样类型的音波文件,其值如下 计算:声道数采样频率女采样字长/ , 取数块数,表示放音时每次所取的数字化样本数据块数, 对采样类型的音波文件,其值如下计算:声道数目 采样字长/ 采样字长,为每一个采样样本的二进制位数,通常为; 】: 格式段长度~一格式段长度标识字段,其内容为“” 格式段长度?一格式段长度数据长度,表明了数据块数据的多少 数据区部分:汉语语音识别中语速、音苗平?音凋调黎的研究 格式段长度一一格式段长度数据长度声音数据区 声音数据区数据存储格式: 采样,单声道时:采样值,采样值,采样值,? 采样,双声道时:左声道采样值,右声道采样值,左声道采样值, 右声道采样值,? 采样,单声道时:低位采样值,高位采样值,低位采样值,高位采 样值,? 采样,双声道时:左声道低位采样值,左声道高位采样值,右声道低 位采样值,右声道高位采样值,? 文件尾部分: 格式段长度数据长度一一格式段长度数据长度文件尾 二、读取声音文件的数据 首先根据文件格式取出..十个字节的参数,如果前四个字节不是 “”字符、数据类型参数不是“”或者格式标识参数不是“”,则这 个声音文件是无效的声音文件,不能进行各种操作。如果前面几个参数都是 正确的,那么再取出声道数目、采样频率、采样字长、格式段长度等参数,然后 根掘格式段长度参数验证数据区是否有效,如果无效则无法取出声音文件数据, 如果有效则再取出数据区长度以及数据区的起点位置,最后根据声道数目、采样 字长来决定读取数据的方式。具体的方式为可参考数据区数据存储格式:当声 道为单声道时,如果采样字长为,则从数据区起点开始以字节为单位连续取值; 如果采样字长为,则从数据区起点开始以双字节为单位连续取值。当声道为 双 声道时,如果采样字长为,则从数据区起点开始以字节为单位每隔一个字节取 值,所取得就是语音左声道的数据,语音右声道的数据则从数据区起点处开始 以与左声道同样的方法取得:如果采样字长为,则从数据区起点开始以双字节 为单位每隔一个双字节取值,所取得就是语音左声道的数据,语音右声道数据则 从数据区起点处不始以与左声道同样的方法取得。 三、采样字长的语音数据与采样字长的语音数据之间的相互转化 当语音的采样字长为时,它的语音数据值介于~之间。而当采样字长 为时,它的语音数据值介于一~之间。在以后所讲到的三种语音调 整中所用到实验语音的采样字长均为,为了使所做的系统对采样字长为的语 音也适用,对于采样字长为的数据在进行调整之前要先转变为采样字长为的 数据,在调整完以后再转变回去。下面是把采样字长为转变为采样字长为的 具体步骤: 首先判断要转换的数在此处定义为与的关系。如果等于 ,则转换后的数定义为等于。如果大于,则转入第第二章语音语速的调整 二步计算。如果小于,则转入第三步计算。 计算出?的二进制,把二进制的各位分别按顺序存放在一个长 度为的数组罩即把位的数据存放在相应下标为的数据单元。从 数组的初始值为位开始检查数组数据是还是,如果为则 汁,如果为则加重复上面的步骤直到 等于。 计算出.的二进制,和第二步一样,把各个二进制的值存入长 度为的数组中。从数组的初始值为位开始检查数组数据是还是 ,如果为则. ,如果为则加重复上 面的步骤直到等于。 由采样字长为转变为采样字长为的方法如下: 如果,则;如果.,则。 否则计算绝对值的二进制,也把相应的值存入一个长度为的数组。 从数组的初始值为位开始检查数据是还是,如果为并且则 “一,如果为则加重复上面的步骤直到等于。 .。 如果,贝 ,否贝 ?.语音语速调整的总体框图 语音语速调整的整个过程是,首先用扬声器录入待识别的语音数据,读取数 据区数据后计算语音信号的短时平均振幅,然后根据短时平均振幅分析语音 数据 的元音起止点,最后根据元音长度决定是否进行语速调整。如果元音长度不 在所 的识别范围内则进行调整,否则不进行调整。语音语速调整的总体框图 如图 .。 下面各小节对流程图中的各个框图做详细地介绍。 ?.语音元音起止点的判别算法 一、语音信号的时域波形 本文采用的分析方法是通常被称为时域分析的方法,该方法直接涉及到语音 信号的时域波形,所以下面先对时域波形做一介绍。在进行语音信号的数字处理 时,最先接触到并且也是最直观的是它的时域波形。但是怎样使语音信号变成一 段时域波形呢语音信号的数字表示就是一个最基本的问题。在这个问题上,我 们以熟知的抽样定理作为依据,陔定理告诉我们一个限带的信号可以用时域上周 期抽取的样点来表示??只要抽取样点的速率足够高。为了画图方便起见,即使汉语语音识别中语速、音域干?音调凋褡的研究 录入语音数据文制 从语音文件中提取数据区的数据 计算语音信号的短时平均振幅 通过短时平均振幅分析语音数据 的元音长度 是 否 是否在识别范闸 山 不进行语 进行语速调 速调整 整 幽.语速自适应调整的框图 是讨论离散表示,在后面部分的图也用模拟连续函数来表示。本文为了获取 一段语音信号的时域波形,首先将语音用话筒转换成电信号,再用/变换器将 其转换为离散的数字化采样信号后存入计算机的内存中,最后将此信号取出,就 可以绘成给语音信号的时域波形。图.是一个男声发的“大家好”的汉语语音时 域波形图。语音是在安静的环境下录取的,采样字长为,每个采样信号用 位进行量化。这段语音的持续时间为.秒,图中横轴为时间,纵轴为语音信 号的幅度。由于时间很短,从图.中无法辨别语音波形的细节,但是可以看出语 音能量的起伏,还可以大致分辨出话语中每一个字音节在此波形中的位置。 为了仔细辨识语音波形,我们可以把时间拉宽由于拉宽的时域波形图很大,在.【 眦‰..。.舢龇。。。.汕八一.一。龇?。 : 咿『『『『『咿一四唧四‖~哪旷?仰’叩一? ’ 幽.一段语音信号的时域波形幽第二章语音语速的调整 此不详细列出。从拉宽的语音波形的细节,我们可以看出语音信号具有很强的“时 变特性”,即它的“短时性”。在某些短时段中语音信号呈现出随机噪声的特 性,另一些短时段则呈现出周期信号的特征,其它短时段是二者的混合。简而言 之,语音信号的特征是随时间而变化的。只有在一段时段阳隔中,语音信号爿‘保 持相对稳定一致的特征,这段时间一般可以取为~。这一特点是语音信号数 字处理的一个重要出发点,对语音信号的分析必须建立在这一特点的基础上。 二、语音信号的短时能量、短时平均幅度和短时过零率 由于语音信号的准平稳特性,任何语音信号数字处理算法和技术都建立在“短 时”基础上。为了实现语音的各种调整,象以时域量度来描述语音信号的一些例 子包括短时能量、短时平均幅度和短时过零率都必须被大家所了解。这些描述的 方法很好,因为所要求的数字处理实现起来非常的简单,而且对估计语音信号的 重要特性提供了有用的基础。下面就对语音信号的这些短时参数进行详细介绍。 考虑到语音信号的短时平稳特性,语音信号应该进行分段处理。信号流的分 段是采用可移动的有限长度窗口进行加权的方法来实现的,也就是一段语音 要经过加窗处理,这就是用一定的窗函数来乘,从而形成加窗语音。?。 在语音信号数字处理中常用的窗函数是方窗和哈明窗,它们的表达式如下其中 为窗口长度: 方窗 一? ,. 。:其它值 哈明窗 陋:, 炉?..四州’ 在计算上面提到的三个短时参数时使用的一般就是以上所讲的方窗或哈明 窗。这些短时处理技术,可以表示成数学形式 ?丁一女 对语音信号或者是经线性滤波后滤出所要求的频段做变换了?,该变换可以是 线性的,也可以是非线性的,它可以依赖于某个可调参数或一组参数。然后把所 得到的序列乘以窗序列,这个窗序列位于与抽样标志相一致的时间上,最后对乘 积的所有非零值求和。通常窗序列宽度是有限的,所以值就是序列】的部 分加权平均值的序列。汉语语音识别中语迷、音蛰和音凋调祭的研究 .短时平均能量 短时平均能量可以按照.式定义为 ? 一。 此处相当于?式中的?】七,因为这罩的窗函数采用的是方窗函数 所以,?的非零值范围为?一?一,也就是?一??月,故 式的的上下限可以自一至月,即 邑?七 .式即表示肝这个时刻的语音信号的瞬时能量。 如果令可以把?式表示成图.的形式 ? 图.短时能晕的方框表示 由图.可以看出,语音信号的瞬时能量就是信号经过冲激响应为 的数字滤波器滤波后的结果。 综上所述,语音的瞬时能量表示取决于的抉择。在实际计算中,不同的 窗口选择形状、长度,将决定短时平均能量的性质。无论什么形状的窗口, 窗 口序列的长度将起决定性的作用。所谓窗口长度的长或短,都是相对于语音 信 号的音调周期而言的。通常认为在一个语音帧内,应含有~个音调周期为好。 可是人的语音的音调周期是变化的,从女性小孩的至老年男子的即音 调频率为至,所以通常折衷的选择为~点左右。若采样率 为,则相当于每帧的长度即窗口序列的长度约为~为宜。 .短时平均幅度 从短时平均能量,这个参数的定义可以看到,对于大电平信号,由于其平方 处理就显得过分灵敏。对于这种情况,可以采用另一种度量语音信号幅值变化的 参量,它叫做“短时平均幅值。”。。同样也是一帧语音信号能量大小的表征, 它与。,的区别在于计算时小取样值和大取样值不因取平方而造成较大差异,在某 些应用领域中会带来一些好处。当窗起点为时,语音信号的短时平均幅度用 .表示,其计算公式为: ?~ ?。第二章语音语速的调整 同样,当窗的起点为任意整数时,就表示为。 .短时平均过零率 所谓过零率就是一帧语音中语音信号波形穿过横轴零电平的次数。对于 离散时问序列,过零则是指序列取样值改变符号。所以它可以利用相邻两个取样 改变符合的次数来计算。 对于宽带信号,为了反映其过零率随时间的变化情况,不能采用长时平均过零 率,必须采用短时平均过零率,其定义如下: . ??一一? 式中 。, 班《?蕊 这里用素‘而不是’作为幅值,是考虑了对该窗口范围内的过零数取平均的 意 思因为在此范围内共有?个样本,而每个样本取用两次。 其中.】是如下形式的函数,它表示若信号值等于或大于零,则取为即 正号,若信号值小于零则取为.即负号。即 ?。, 阱。,蓑 考虑到?的非零值范围为一?,即”,以及/?一,故 月一?,因此式可以改写为 。七一】 实验结果表明,浊音语音的能量集中在大约以下,而对于清音语音,其 能量则大多数出现在较高的频率上。由于高的频率对应有高的过零率,低的 频率 对应有低的过零率。于是,若测得的过零率高,则对应一般为清音,反之则一 般 为浊音。一般的经验数据是,对于清音语音,其过零率为每内”?,而 对于浊音语音,其过零率为每内。?。 三、汉语语音的特点 汉语是世界上最大的语种。汉语标准语音指的是北京语音。汉语语音的特点如 下: 音系简单。这是指音素、音节少大约有个音素,但只有个左 右音节,如考虑每个音节有五个音调,也只不过多个有调音节。例如:汉语语音识别中语述、音埴和音调调整的研究 尾音只有、、、、五种。声母都多为清音,浊声辅音只有、、、四 个。没有复合辅音。音素的发音方法和发音部都是一般的,没边擦音等。 听感上有清亮、高扬和舒服、柔和的感觉。其原因为:清辅音多,而 且多是弱清辅音。没有入声这种短促的发音。开口呼的音节占全部音节的一半 以上,用这个音素为主要元音的音节就占%以上。由以上点,汉语具有好 的听感。 ,有鲜明的轻重音和儿化韵,所以字词分隔清楚,语言表达准确而丰富。 清音和重音配合使语义明显。儿化韵能起适当的语法修辞作用。 “音节”是语音流由音素结合而成的最小单位,同时也是发声的最 小的单位,更是听觉上能够自然辨别出来的最小语音单位,音节可以结合成更大 的单位一“词”。词进一步可结合成“节奏群”、“句子”等等。音素的对应词是 ,可以认为它是语音最基本组成单位,在汉语中由音素构成声母和韵母。 事实上,同一音素与不同音素结合时,发音是有差异的。例如,这个音素在发 “诗”这个音与发“书”这个音时,发音方式不完全一致,前者 是非圆唇音,而后者是圆唇音。对于同一音索,它的各种不同发音方式称为“音 素变体”。一个音节由元音和辅音构成。在 汉语中辅音也称为声母,元音也称为韵母。汉语的一个音节就是汉语一个字的音, 即音节字。从发音机制的角度上看,一个音节对应着喉部肌肉的一次紧张,即肌 肉紧张一次就形成一个音节,肌肉紧张两次就形成两个音节,如“”包含的一 串音素,如果发音时肌肉紧张一次,就形成一个音节鲜,如果发音时肌肉紧张 两次,就形成两个音节西安。每个音节发音时肌肉的紧张可以包括渐强、强峰、 渐弱三个阶段,如果把这三个阶段的对应的音分别说成起音、领音和收音的话, 音节的构成模式不外以下四种:领音;起音领音;领音收音; 起音领音收音。一个音节可以没有起音和收音,但是绝对不能没有领音,没有 领音就不能构成音节。领音必须有相当的响度才能在听觉上察觉音节的出现。汉 语普通话中,充当领音的通常是元音,起音一般由辅音充当,收音可以是元音, 也可以是辅音。在四种音节构成模式当中,和在汉语普通话中出现的频 率最高,所以汉语普通话中每个音节基本都是由“辅音一元音”构成的其中包括 只有元音而没有辅音的纯元音音节,例如“啊”,这种情况成为“零元音”。所以 说元音构成一个音节的主干,无论从长度看还是能量看,元音在音节中都占主要 部分。所有元音都是浊音。 单独发音的一个音节或是语音流中的任何一个音节都可能由个部分组成, 如图.所示。其中.段属于声母辅音段,段属于韵母元音段,第 段是二者的过渡段。对一个具体指定的音节而言,有可能只包括其中的某几段, 但是第段主要是元音段是每一个音节都具有的。正是因为每一个音节都含第一二章语音语速的调整 有元音段,而且虽然元音段长度在音节长度中作为主要的部分,但是却不包含语音 发音的主要信息,而只是出现在发音尾音部分。所以对它进行长度上的改变不会 改变整个语音的发音特征,只是改变了语音发音尾音的长度,也就是改变了语音 的语速比如我们在说汉语“”的时候,整个发音的主要部分就是,如果我 们把拖得长一点则整个语音的语速就慢,如果我们把拖得短一点则整个 语音的语速就快,但是无论我们发这个音时拖得短或长汉语“”的发音却不 会有什么大的改变。所以我们把元音时值长短的变化看作是调整语音语速的重要 部分。 一一一一一一 一一一 一一一 韵尾 介青 主要元音 图.汉语普通话的音节结构框架? 在汉语发音当中,辅音中有一部分是清音,另一部分是兼具浊音和清音的特 点。所有辅音的共同特点是发音时声道处于某种受阻挡的状态。辅音的另一个重 要特点在于这是一种动态特性很强的音,这就是说,发辅音时发声器官的状态变化 较大。与之相应,辅音的短时频谱也随着时间而有很大的变化。元音与辅音相反, 发音时声道不受明显的阻挡,它的短时频谱结构相对稳定。正是辅音和元音在频 谱结构上的不同,决定了它们在时域波形图上的不同。即辅音的时域波形图波形 变化非周期性强,而元音的时域波形图波形变化周期性强,即存在完整的并具有 周期的波形,这样我们就可以通过一定的方法找到完整的周期波形。正是这个特 点使得我们在语音信号基本上不失真的前提下能够实现语速的调整。图.为一元 音的某一段的放大的时域波形图。汉语语音识别中语速、音域和音调调整的研究 幽.一个语音信号的元音部分 四、语音元音起止点判别算法 在给出这个判别算法之前,先看一个语音的短时平均振幅的示意图图.。 幽.汉语“”的语音和短时平均振幅的示意图 图.中的图形从上而下分别是汉语“”的时域波形图和它所对应的短时平 均振幅示意图。从语音的时域波形图可以看出,“”的发音可以分为】和【】两个 部分,『一个部分是清音而后一个部分是浊音。从短时平均振幅示意图可以看出, 这两个部分的短时平均振幅有很大的区别,浊音的短时平均振幅比清音的短时平 均振幅大得多也比无声的短时平均振幅大得多,而且在浊音和清音的交接部分短 时平均振幅有一个较明显的降落坡度。通过观察多个语音的短时平均振幅示意图, 我们发现这是一个普遍的现象,这就给判断元音浊音部分提供了一个很好的 依据。 因为在这个算法中要计算短时平均振幅, 第帧 ’ 。 所以在开始讲述算法之前,先介绍一下帧长与 帧移的概念。帧长就是在前面所讲过的窗函数 星壁塑 的长度。在语音信号处理中一般用循环队列的 第帧. 卜??叫 方式来读取这些数据,即按帧从数据区中耿出 镛 纛篆箍磊巢煮急,专嚣 图.帧长和噱移的示例结论 采用的采样频率为.,相当于个采 样点。在取数据时,前一帧和后一帧的交叠部分就称为帧移。帧移与帧长的 比值第二章语音语速的调整 一般取为~/,图.给出了帧移与帧长之比为/时各前后帧的相对关系。在 本文计算短时平均振幅时就用到了帧长和帧移两个概念,其中帧移取为,即 计算 每一个采样点的短时平均振幅,具体的就是:首先取出语音数据的起点利用 式 计算在长度为帧长的范围内这个点的短时平均振幅,然后向前移动帧移的长度, 再计算下一个点的短时平均振幅,直到把所有语音数据点的短时平均振幅都计算 完。采用帧移的好处就是前后两帧重叠部分采样点振幅值的和可以不用重新计算, 对于数据长的语音可以减少计算量。 判断元音起止点的算法就是根据从图.得出的清音和浊音在短时平均振幅 有相当的区别这一特点而提出的。考虑到清音和浊音在短时过零率方面也有不小 的区别,在这个算法中也曾引入平均过零率作为辅助判断,但通过分析语音图形 发现对于那些清音和浊音过零率区别很大的语音象汉语?’,“”等通过短 时平均振幅完全可以判别其元音部分,而对于那些清音和浊音过零率区别不大的 语音象汉语“”,“”等靠过零率不能对元音的判别起有效的作用,所以最 后只采用短时平均振幅判别元音。方法的要点为:因为语音的短时特性,所以语 音的窗长取为,所用的窗为方窗。从语音的第一个点开始,计算出整个语音 振幅阈值低振幅闽及高振幅闽具体的方法是: 计算语音每个采样点的短时平均振幅值,称其最大者为.称其最小者为 ,算得 ? ,.? 于是得 ? 』,』上式中的和分别用来判别元音的起点和止点,之所以要选择两个参 数来判别起止点,是因为在元音的起点前面一般都存在清音,而止点的后面部分 一般都只是背景噪声在实验的情况下一般没有噪声趋近于静音。从图.中我 们也可以看到虽然清音的能量很小但相对于静音还是比较大的,所以选择用于判 别元音止点的门限比用于判别元音起点的门限要小得多。 下面的步骤是分两支分别对元音起点及终点进行判别。首先从语音数据的起 点不始判断每一帧的采样点中是否存在短时平均振幅比大的采样点,若不存 在则继续向后查找:若存在,则第一个这样的点就是初始起点?,然后再判断从 该点开始向后连续个采样点的短时平均振幅是否都大于,如果存在这样的 连续个采样点则初始起点?就是元音起点:如果不存在这样的连续个采样 点则认为?不是元音的起点,向后帧移一个帧长然后重复上面的步骤,直到找到 元音的起点。终点的判断是从语音数据的终点开始判断每一帧中采样点中是否存汉语语音识别中语速、音苗和音调调整的研究 在短时平均振幅比大的采样点,若不存在则继续向前查找;若存在则第一个 这样的点就是初始终点?,,判断从该点开始向前的连续个采样点的短时平均振 幅是否都大于,如果存在这样的连续个采样点则初始止点?就是元音止 点,如果不存在则向前帧移一个帧长然后重复上面的步骤,直到找到元音的终点。 按上所述可得到元音起止点判别流程图,如图.所示。 语音 计算从数据起点开始每 一个采样点的平均振幅 .元音起止点判别流程图 在实际进行判别元音的时候,要把清音和浊音比较好地分辨出来,振幅门限 的选择非常重要,就是在上面两个公式中的和这两个系数的选择非常重要, 如果选得太大则起点门限过高,从图.可以看出,这样会使在判别起点的时 候在到达正确的元音起点时的采样点短时平均振幅还比所定的门限低,导致要继 续向后寻找符合门限的起点,这样的结果就会使原来属于元音起始部分的一段现 在被判别成了清音部分。如果选得太小则起点门限过低,这样会使在判别起点第一二章语音语速的调整 的时候在到达正确的元音起点之前就因为存在采样点的短时平均振幅已经符合所 定的门限,从而停止起点的寻找,这样的结果就会使原来属于清音止点部分 的一 段现在被判别成了元音的起点部分。如果选得过小则终点门限过低,同样从图 .可以看出,在『确到达元音终点以前会因为存在采样点的短时平均振幅比所定 的门限低,就找到了符合门限的错误终点,这样就会使原来属于无声的一段被判 别成了元音部分。如果选得过大则终点门限过高,其结果和选得太大一样 会使在找到正确终点后因为门限定得过高还继续向前寻找终点,使得原本属于元 音部分的采样点被误判为无声。经过多次实验在本文中的值选为.,的值 选为.,这样能基本保证找到语音的元音部分。 图.是汉语“”经过元音起止点算法以后的语音时域波形图,图中两根黑 线分别是元音的起点和终点。 图.汉语“”?音起止点的时域图 用本算法对不同发音人的语音元音部分进行了判别。由大量的实验结果可以 看出本算法对大部分的语音都可以准确地找到它的元音部分,就算有时候没有准 确地找到但是与元音的正确部分不会有很大的差距。本算法的不足之处是,存在 由于个别发音人发音的不规范性不能很好地找到其元音部分的情况笔者所发的 汉语“红”就存在这样的情况,特别是在清音和元音中间存在一段高振幅、低过 零率的采样点时,因为存在高振幅的点会在判别的过程中在这些点就符合了所定 的高门限条件而导致错误的判断,图.就是在这种情况下用短时平均振幅所判 别的元音起点,可以看到起点离正确的起点有很大的距离,但是在进行语速调整 当中这一问题不会对调整产生影响,所以在本章暂时不提出解决方法,在第四章 会提出解决这个问题的具体方法。 幽.“红”的部分时域波形幽黑线为元音起点汉语目音识别中语速、音培和音调调整的研究 ?.语音语速调整方法 一、判断两个波形相似的参数 在本文中使用了两个参数束确定相邻的两个波形是否相似,下面逐一作介绍: 相关系数 相关是时域中描述信号特征的一种重要方法,它对于确定信号的分析有一定 的应用。 对于图.中的两个波形,从直观上看很难发现它们的相似之处,因为它 们都不含有直流分量,而且在任何瞬问的幅度取值都是相互独立、彼此不相 关的。 图.中是一对完全相似的波形,它们或是相同的波形,或是两个变化规律相 同的而只是幅度呈某一倍数关系的波形。对于这些不同的波形如何定量地衡 量它 们之间的相似程度 为了便于讨论,先假定和是实的能量有限信号,然后选择适当的倍数 使去逼近。通常用误差能量来度量两者的相似程度。 令 . :。?一 要求选择倍数使误差最小,即要求 . 等?『刮纠愀凇 于是得到 。’ 土?~ 广 在此情况下,误差能量为 嘞 己 器】讲 将被积函数展开并化简,得到 四 一紫 令相对误差能量是第一二章语音语述的调格 : ? 亭: 其中 鲤型竺 以: ? ,训? 。‘【? 通常把。称为与的相关系数。不难证明 咖】? 川,伽旧? 因而 。。? ? 由式、可以看出,对于两个能量有限的信号,若它们的能量是确 定的,则。。的大小有?积分所决定。例如图.所示的两个完全不相 似的波形,由于它们的幅度取值和出现是相互独立、彼此不相关的,因而 ,即相关系数。。此时误差能量?最大,这说明与 是线性无关的。对于图.、.所示的两个相同的及相反的波形,由于它们 的形状完全相似,因而,?的积分绝对值最大,其相关系数,。分别等于 和一。此时误差能量占等于零,这说明与是完全线性相关的。因此通过计 算两个信号的相关系数可以被我们作为其相似性或线性相关性的一种度量 方 法。 舟 ?舷舟 南舟书 。 。 幽.两个不相同、相同及相反波形 汉语诰阡双别中语速、音艟平音调调帮的研究 在本文中的语音文件都是离散的,所以在实际地计算。.时采用求和来代替积 分,具体的计算公式如下: 、,“, ? 几 箸生?百?下 ? ”? ?““ 日、九 其中,为语音的起点,,为语音的长度,所计算的结果是相邻两个波形之间的 相似程度。后来在实际计算中发现,在计算一次相关系数要涉及到,次的乘法 计 算,对于“一个具体的语音信号要计算相关系数的次数等于语音信号的长度除以,, 所以计算整个语音至少要涉及到,次乘法。在计算长时间的语音信号时计算速 度不是很理想,为了提高系统的效率就有必要寻找一个计算量小的参数来判断语 音的相似性为了区别下面所讲的概念,把,,称为平方相关系数。 。相关 普通相关 首先假定,是实固定随机函数。那么普通相关定义如下: . 艮 ?】 其中 ,】是把取平均值。 无特点交叉相关 假定和的普通相关是以,以及它的傅立叶变换是。,那么 毛去.幽 当‖,甜;,上式就成了普通相关。 符号延迟相关 首先,对或者进行符号操作。然后把符号操作用到普通相关中就可以 产生符号延迟相关: ? 劬酬尺万备 其中要肚, 符号位相关 对和进行符号操作:。、?堙即】 公式和.都是用于简化普通相关的。 为了介绍 ,,相关,可以把普通相关的表达式转变为另一种相当的表达式第 一二章谐音语速的调整 . 、去,,一 ,一,十 上式中,右边的第一项是一个常数因为晕面不含有变量,第二项是和 之间的厶标准距离。如果我们把厶标准扩大到 。标准,那么 。相关的定 义就可以简化为: 麟:?,?仆击?叫?门 其中是一个不小于的实常数。当,上式就变成了普通相关。 当时,式?就是上。自相关。那么白相关可以写为: . 月二刮】一一?】 可以看到上式中没有乘法运算,这样对于大容量的语音数据就可以减少很大 的 计算量。在把厶作为判断语音相似性的参数柬判断语音相似的时候,只要使 刨一~耿最小值就说明了两个语音信号相似性最大。在本文中就采用了 这个概念,计算一阶相关系数公式如下: ” ?工”/? ~其中,为语音的起点,为语音的长度,计算结果表示两个相邻波形的相似 程度,为则波形完全相似,为则波形完全相反。 二、语速调整的方法 根据汉语语音发音的结构以及元音在发音中不占主要信息的特性,在这部分 提出语速调整的具体方法。图.中的完整周期或称音源激励信号的周期是语音 信号最重要的参数之一,在语音语速的调整中如何较准确地找到这样的完整周期 对基本无失真的调整语音语速是非常重要的。就是在元音部分找到这样的周期后 在其后面进行一个周期波形扩展或删除这个相似波形,以达到语速减慢或加快的 基本无失真调整,之所以说基本无失真是因为在找到完整周期后压缩或扩展是和 的面一样的波形,这时在两个波形交接的地方不会有太多的野点偏离了语音正 常波形的点,这样可以解决拼接波形之间幅度和相位的不连续问题。 在确定是加快还是减慢语速时,必须定义两个元音长度阈值参数和 因为对语音语速的时值变化适应有较大的范围,所以和 是通过进行语音识别,对能够识别出来语音的元音长度进行分析和统计 而得到的元音长度的两个门限值。在本文中取为个采样点,取为 个采样点。当语音元音的延续时间小于低元音长度参数,则自适应地 在相似波形之后增加一个相似波形以使语速减慢而进行改善。当延续时阳大于元 卉乏度参数,则自适应地删除相似波形以使语速加快而进行改善。在语音语 速渊整巾寻找十似波形的时候需定义相关系数阈值参数的范围为~,但汉沿语音别。诰迷、音蛙取音’惆阑螭不究 为了使语音不会有较大的失真,如果采用平方相关系数最好选择大于.,如果 采用自相关系数则最好选择小丁..,这两个值都足通过对两个周期的余弦函 数进行相似程度的实验计算而得到的,只要符合上面的条件语音信号基本上没有 失真.由于语音信号中的波形不能卜分的相似,所以如果两个参数取得过大或过 小会导致找不到相似波形。当计算得到的实际相关系数大于平方相关参数或小于 .自相关系数参数时,说明找到相似波形。当计算得到的相关系数小于平方相关 参数或大于,自相关系数参数时,说明波形相似程度不够,应继续计算相关系数。 增加或删除相似波形的具体方法如下: 找到语音波形平缓且具有较明显的周期变化部分即一个语音的元音部分利 用图.所示的流程图,再利用本章第四部分所介绍的平方相关系数或厶自相 关 系数,从元音的起点不始计算长度为的波形与起点为、 长度为的波形之问的相似程度。如果找到相似波形,则根据是加快语速还是 减慢语速来分别决定是删除这个相似波形还是在这个相似波形之后再增加 这个相 似波形。如果要删除这个波形则要定义一个数组来存储调整后的数据, 在没有找到相似波形时,把原语音数据数组的值依次赋给,保持起点 不变,增加波形长度”继续计算两个相邻波形的相似程度。 因为元音部分的周期也是有范围的,所以如果波形长度增加到某个值本 文中耿为还没有找到相似波形时,就认为以为起点长度、以为 波长的波形不能找到相似波形,这时就应该改变,并使波形长 度重新变为原始的值,重新开始寻找新的相似波形。等找到相似波形以后 则把的下标减去这个相似波形的长度,然后改变 舀,并使波形长度重新变为重新寻找新的相似波形。重 复以上步骤直到大于元音段终点为止。最后所得到的数组 就是加快语速后声音文件的数据。 如果是要增加这个相似波形,需要定义一个数组来存储调整后的数 据。在没有找到相似波形之前所要做的工作和删除波形是一致的,只是赋值 的数 组是,找到相似波形以后则在中再加上一个相似波形,重复以上步骤直 到%大于元音终点为止。最后所得到的数组 就是减慢语速 后声音文件的数据。当元音部分非常短的时候存在找不到相似波形的可能。 当 完成一次完整的调整后从元音起点到止点的之间波形都经过相关系数的计 算 再通过判别元音的起止点来计算元音长度,如果元音长度如果在~的 范围之内,则说明调整结束,否则重复上面的调整过程直到调整后的元音长 度符 合上述的范阳。 图. 是语音语速自适应调整的程序流程图。第一二章语音语速的调擎 开始 计算起点为仞始值为元爵区域的起点值, 度为的波形与起点为, 嗖为的波形之间的相关系数 不变 不住范周内 是 否 根据是加快还是减慢语速,分别决定是删 除还是增加所求得的相似波形 不变 否 元 音蚝府 是 重新判断 元音起点 调牲厉的元音度是 否 否存允许范围内 盟 结束 幽.语速调整的流程鳘】 三、语速调整后对语音数据长度和文件长度的处理 无论是减慢或加快语速都会使语音数据和文件的长度发生变化,所以在调整 后就一定要把改变后的数据和文件的长度写到文件头的参数里,否则下次读 取数 掘时会发生错误,这罩定义一个改变采样点参数,用来存储在语速调整完后 语音数据所改变的长度,也就是增加的或删除的相似波形中采样点的点数。 下面 . 介绍写文件头参数的方法。 如果是减慢语速就用原来的数据区长度和文件长度加上,如果是加快语 速就用原来的数据区长度和文件长度减去,所得就是现在语音的数据区长度 和文件长度。因为文件长度和数据区长度都存放在连续的四个字节内的,所 以在汉语语丹识别。,旨速、背域币?音目躅锆的研究 存放新长度记为时就要:苘‘先计算/’后墩整数部分记为, 就是叫个’声节中的最高他的值;』次让? 等于忆一×’,计算/后取 整数部分记为,就是次商佗的值;再次让等于? 一×,计算 /后取整数部分记为,就是次低位的值;最后,计算? 一×记 为,就是最低位的值。 经过符合上述程序流程网的程序的处理,图.调整为如图.波形图。 比较图.与图.,图.是采样点为,时问为. 秒的汉语“青” 的时域波形图,而图.是采样点为,时问为.秒的汉语“青”的时域 波形图,这说明了对语音语速进行了有效地减慢调整,而且通过的识别 发现:未经过调整的图.的识别率为%,而经过调整后的图.的识别率 提高为%左右。加快语速的调整与减慢语速的调整一样可以通过符合程序流 程 图的程序进行调整,这罩就不给出图形。 ?。“山础九从且 剀.时域波形幽汉语“青” ‘一’呵???佣刖?。 一州删 划 时域波形幽语速减慢后的汉语“青” ?.小结 本章主要讨论了调整语音语速的方法。通过对汉语语音发音的特征、元音发 音特征以及两个语音信号相似条件的研究,提出了在语音元音部分通过增加或删 除相似波形来达到调整语速的方法。其中还进行了大量的实验,给出了判别语音 元旨的实例图和用所给出的减慢语音语速算法调整前后的语音的实例图,通过实 例图可以看到本章所给出的方法基本上是有效的。第:二章语音音最的凋整 第三章语音音量的调整 正常人的听觉系统是极为灵敏的,人耳所能感觉的最低声压接近空气中分子 声压级 热运动所产 的声压。证常人可听到的声音的强度范围为~ 这罩的基准声压 是“/或.达因/”“‘“。声音强度太高 则感到声音刺耳,强度太低则感到寂静无声,这的动态变化范围相当大, 远远超过了识别系统在识别时所能承受的范围,所以有必要在识别之前 对待识别语音进行音量上的调整。 ?. 语音音量调整的总体框图 语音音量调整的整个框图与语速调整类似,首先也是用扬声器录入待识别的 语音数据,在取出数据区数据后计算语音信号的短时平均振幅和短时过零率,并 利用使用这两种短时参数的判断有声区的算法来判断语音信号的有声区起 止点, 然后计算有声区时窗内采样点振幅的平均值,最后根据振幅平均值的大小是否符 合识别机的识别范围来决定是否要进行语音音量的调整。在决定是否要进行语音 音量调整时需定义两个音量阈值参数来判断振幅均值是否符合识别范围。一为高 闽值参数..,另一为低闽值参数和是利用对多个 实验语音进行识别,并通过对识别率高的语音平均振幅进行统计而得到的。在本 文中取为,耿为。当语音的音量振幅的平均值低于阈 值参数时,则系统自适应地增大各个采样点的幅值来放大音量进行改善。当 语音的音量高于闽值参数时,则系统自适应地减小各个采样点的幅值来降低 音量进行改善。语音音量自适应调整的的总体框图如图.。 以下几个小节将对总体框图中的各个主要过程所涉及到的理论基础或算法作 详细的介绍。 ?.有声区与无声区的判别算法 在对语音的音量进行调整之前需要判断一段输入语音信号哪些是语音段,哪 些是无声段这时只有背景噪声。这个问题可以称为有声/无声判决。因为如果 不判断哪些是语音段,哪些是无声段的话在增加语音段音量的同时也会增加 语音 段前后无声段的音量,在实验条
/
本文档为【在汉语语音识别中语速、音量和音调调整的研究(已处理)】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索