为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > 计算机语音录入ixia之准确化问题研究.doc

计算机语音录入ixia之准确化问题研究.doc

2017-10-25 6页 doc 19KB 8阅读

用户头像

is_650122

暂无简介

举报
计算机语音录入ixia之准确化问题研究.doc计算机语音录入ixia之准确化问题研究.doc 计算机语音录入ixia之准确化问题研究 -->第 1 章 绪 论 1.1语音录入系统的研究背景及意义 语音录入系统是基于语音识别系统发展起来的一种可将输入的语音信号转换为对应的文本输出的综合语音识别系统,随着现代信息科学的飞速发展,语音信号的处理和数字化技术已日趋成熟,随之带动了语音识别技术[1]的广泛应用,这为进一步研究语音录入系统奠定了很好的理论基础。同时,在软件方面,现在流行的矩阵实验室(Matrix Laboratory )MATLAB[2]软件的强大的科学计算机数...
计算机语音录入ixia之准确化问题研究.doc
计算机语音录入ixia之准确化问题研究.doc 计算机语音录入ixia之准确化问题研究 -->第 1 章 绪 论 1.1语音录入系统的研究背景及意义 语音录入系统是基于语音识别系统发展起来的一种可将输入的语音信号转换为对应的文本输出的综合语音识别系统,随着现代信息科学的飞速发展,语音信号的处理和数字化技术已日趋成熟,随之带动了语音识别技术[1]的广泛应用,这为进一步研究语音录入系统奠定了很好的理论基础。同时,在软件方面,现在流行的矩阵实验室(Matrix Laboratory )MATLAB[2]软件的强大的科学计算机数据处理能力和实用的程序接口和发布平台等优点为语音录入系统的实验仿真提供了很好的实验平台。此外,在硬件方面,随着现代计算机的迅猛发展以及多媒体电脑的出现,录音、听筒等多媒体设备已数见不鲜,对图像以及声音的获取相对于过去更加容易,这些都为语音录入系统软件的实现打下了很好的基础。作为一项具有广泛社会效益和经济效益的现代信息技术,语音录入技术虽然已经取得了很大的成就,但是在面临实用化时还存在着一定的差距,因而语音录入系统如果不能做到完全通过语音的方式来实现对文字地准确录入,那么对于一些特殊人群(比如残疾人、教育工、速记行业等)来说,实用意义也并没有体现出来。所以人们仍需要不断地对语音录入系统的功能和性能进行完善。这对语音到文字的准确转换以及语音录入可以商用化并且为特殊人群提供真正意义上的完全通过语音来实现对文字的录入具有重大的现实意义。未来的语音输人系统,将是一个具有自学习功能,查找速度快,半自动化的语音录入系统。它的研究成功首先将预示着目前的文字速记[8]行业可以被语音录入所替代,并且可以为特定人(比如残疾人,作家,文职人员,教育工等)实现方便的语音录入功能。进而还可以取代目前以键盘输入和手写输入为主的汉字输入方式。 1.2语音录入系统的国内外研究现状 语音录入是根据操的讲话,将输入到计算机内部的语音语音信号转换成对应的文字的一种输入方法(又称声控输入[3])。通过声音与计算机进行通信[4],并与机器进行实时地语音交流,让机器明白我们人在说什么,这一直以来是人们研究语音识别的主要方向。语音录入技术就是让机器通过语音识别和音字转换的过程把语音信号转变为相应的文本或命令的高新技术。它能够让计算机接受用户的语音,进行分析、理解,然后回应适当的信息给用户,进而实现真正意义上的‘人一机对话’[5]。但是由于每个国家的语言结构都是互不相 同的,对于不同的语言结构总会有相对应的方法来解决语音录入时所遇到的难题。在国外,大部分的语音录入软件都是基于外文文字的发音的不同并通过语音识别的平台来实现对文字的录入的,随着语音识别技术、音字转换技术的不断发展,已经出现了许多较为成熟的语音录入系统,并且已经进入了商品化的阶段,比如,IBM ViaVoice、Nuance Voice Platform、ScanSoftDragon NaturallySpeaking 等一些流行的语音录入软件系统,这些语音录入软件都是以英语的录入为主的,在识别率方面已经达到了不错的效果,但是当向系统中输入的英文的语音有多个单词与之对应时,系统输出的显示结果并非是我们想要的,即录入的错误率依然存在着。在音字对应问题上,国外的语音录入系统已提出了一些较成型的解决方法,比如以词法分析、句法分析为主的分析方法以及基于语料库的统计方法等,这些方法对进一步研究文字语音录入系统打下了很好的基础。至于国内的语音录入系统也是在语音识别系统的基础上建立起来的,通过结合常用的语言知识,并经过音字转换和语料库的建立,最终可将输入的语音信号转变为相对应的文字。由于目前国内的一些语音录入软件在实际使用时的性能指标与广大用户的期望相比,还存在着较大的差距。因此实际使用效果不错,并取得显著效益的实用的语音录入系统还不多。 1.3语音录入目前存在的问题 由于汉语自身的特点,每个汉语语音所对应的汉字并不是唯一的,从音节到汉字转换有着相当大的不确定性,根据有关统计[9], 在汉语词典中大约共有 51,000 个汉字,其中有 11138 词条具有同音现象, 占总数的 21. 6%。其中, 91. 6%的单音节词具有同音现象, 双音节以上词条中 11.5%具有同音现象(其中 9.7%是两字词同音,1.4%是 3 字词同音,其余的占 0.4% ) 。并且在汉语中汉字的发音总共只有 1229 种,若分声调的话,平均每个音节对应约 5.3 个汉字,如果不分声调,音节 yi 有 131 个同音字,音节 ji 有 121 个同音字,音节 yu 有 115 个同音字,音节 xi 有 102 个同音字等等。所以,汉语中同样的发音可能代表多个汉字。在国内,目前的语音录入系统比如 语音输入、讯飞语音输入等,虽然已经实现了从语音到文字的转换,但是文字录入的准确性并没有得到改善。而一个完善的语音录入软件应该是当我们向系统中输入一个语音之后,录入软件能够把该输入语音所对应的所有的同音的常用汉字显示在计算机的输出终端,而当我们向系统中输入下一音节的时候,系统能够主动地去和上一个音所对应的同音汉字进行搭配组合,找到我们最终想要录入的汉字或词组,也可以说我们所要研究的语音录入软件是基于汉语词组的 形式来实现的。 第 2 章 音字转换平台的构建 语音录入的实现是基于语音识别的基础之上,来完成的输入语音到对应文字的一种准确地转换。本文中的音字转换平台主要是由前文所说的语音识别模块和音字转换模块构成的。构建音字转换平台所要解决的问题就是使得录入者说的每个音,都能够被准确的识别出来,并通过音字转换模块,使得每个信号波形都能够与相应的一组汉字对应起来。 2.1 音字转换平台 本文所搭建的音字转换平台主要是由图 1-1 中提到的音字转换模块和语音识别模块构成的。而构建音字转换平台的主要目的就是为了使得计算机能够把人所说的语音波形经过声音识别系统和音字转换系统的处理,可以将录入者所说的语音信号转换成相对应的文字序列,即搭建的音字转换平台是为了获得较高的识别率,因而只有语音的识别率得到保证的前提下,才可以去研究语音录入的方式与方法。而如何去选择合适的参数与方法来搭建一个这样的音字转换平台对语音录入系统准确性的问题能否得到改善至关重要。在语音识别模块当中,要想提高录入系统的语音识别率,保证说话者的语音波形可以被准确地识别出来,则需要确定的主要参数包括:窗函数、频域特征参数;同时还需要确定端点检测的方法与语音识别的方法。 第 3 章 语音录入系统中音字对应问题的研究......17 3.1 本文上下文相关文法定义及要解决的问题 ....... 17 3.1.1 本文上下文相关文法定义 .... 17 3.1.2 本文上下文相关文法所要解决的问题 ........ 1 -->7 3.2 本文上下文相关文法解决问题的思路 ......... 18 3.2.1 基于单字的录入方案 ...... 18 3.2.2 基于多字的录入方案 ...... 19 3.2.3 录入方案的确定 ........ 20 3.3 本章小结 ......... 22 第 4 章 语料库的建立....23 4.1 现有语料库存在的问题 ......... 23 4.2 本课题语料库的建立方法 ..... 24 4.3 本课题语料库所采用的查询算法 ..... 28 4.3.1 哈希函数的构造 ........ 29 4.3.2 语料库的匹配与查询 ...... 29 4.4 本章小结 ..... 30 第 5 章 语音录入系统的测试实验........31 5.1 实验所要验证的问题 ....... 31 5.2 实验环境选择 ....... 31 5.3 实验语料库的确定 ..... 31 5.4 实验方案设计 ....... 32 5.5 实验前准备工作 ......... 33 5.6 实验步骤及结果 ......... 35 5.7 实验结果分析 ....... 38 5.8 仿真主要程序 ....... 38 5.9 本章小结 ......... 40 结论 本课题通过对目前语音录入软件的研究现状以及所存在的问题,针对计算机语音录入中音字对应这一问题进行了研究。首先确定实现语音录入应该具有哪些步骤,完成语音的录入最关键的是哪些部 分,并通过一些汉字的录入实验确定了本文所需要的端点检测算 法,特征参数以及识别算法,另外建立了本文所需的语料库。在语音识别率得到保证的前提下,通过使用本文提出的基于字间相关性的上下文相关文法的录入方式解决了对不同长度的汉字以及一些常用短句的录入。但是本文的研究依旧存在很多不足。虽然能够完成对同音字的录入,但是功能上依旧不够完善,比如缺少自学习功能以及记忆功能。此外,实验中所用的语音数据基本上都是普通话为基础的,并且没有考虑以地方性的方言进行录入时,对录入结果的影响以及说话语速的快慢对识别结果的影响。此外,当一个音所对应的同音汉字的个数很多时,即字库中 achines.Proceedings of theIEEE.1976:487-501 [4] A. Barr, Feigenbaum,E.A. ,The Handbook of Artificial Intelligence , California,1981 [5] T. M. Yuan, D. Moore, G. X. Zhong. Evaluation of a Human-puter Dialogue System forEducational Debate. Intelligent Systems (GCIS), 2010 Second achine Learning and Cyberics, 2002.Proceedings. 2002 International Conference on.2002:1287 - 1291
/
本文档为【计算机语音录入ixia之准确化问题研究.doc】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索