语音信号处理综述下载_在线阅读_7

is_476446

暂无简介

语音信号处理综述控制工程年第期语音信号处理综述叶培建摘要模式识别、人工智能、自动化和机器人等学科的迅速发展 , 需要我们在语音信号处理方面做出更多的努力。本文准备分两部分对语音信号处理作一综述。第一部分是语音信号处理发展历史及其基本问题 , 着重介绍语音识别、语音合成及语者识别的发展史以及它们吝自的基本问题。第二部分是语音识别系统及连续语言识别 , 介绍一本基本的语音识别系统 , 分析连续语言识别之困难所在 , 指出应努力的方向。希望通过这篇综...

控制工程年第期语音信号处理综述叶培建摘要模式识别、人工智能、自动化和机器人等学科的迅速发展 , 需要我们在语音信号处理方面做出更多的努力。本文准备分两部分对语音信号处理作一综述。第一部分是语音信号处理发展历史及其基本问

题

快递公司问题件快递公司问题件货款处理关于圆的周长面积重点题型关于解方程组的题及答案关于南海问题

, 着重介绍语音识别、语音合成及语者识别的发展史以及它们吝自的基本问题。第二部分是语音识别系统及连续语言识别 , 介绍一本基本的语音识别系统 ,

分析

定性数据统计分析pdf 销售业绩分析模板建筑结构震害分析销售进度分析表京东商城竞争战略分析

连续语言识别之困难所在 , 指出应努力的方向。希望通过这篇综迷 , 对语音信号处理问题有个较全面的了解 , 明确今后研究的方向。一、语音信号处理发展历史及其基本问题年 , 美国贝尔实验室首先推出了发明的声音编码器 , 这个编码器能分析和修饰声音信号 , 并进行合成而产生声音。在这一年的纽约博览会上 , 展出了世界上第一个能讲话的电装置。这就是语音信号自动处理的开始。它由语音识别、语音合成和语者识别三大部分组成。下面就这三个方面的问题作较详细的介绍。 , 语音识别 , 语音识别的发展史作为语音自动识别的先锋 , 瑞士科学家一在年代曾用电子

方法

快递客服问题件处理详细方法山木方法pdf 计算方法pdf 华与华方法下载八字理论方法下载

实现了一个能够识别几个字的系统。在发展前期阶段 , 科学家们把问题看得很简单 , 认为很快就可以解决语音识别问题 , 他们的设想是先识别音素每种语音仅有约余个音素 , 再识别单字 , 然后是识别句子。但屡经试验 , 均遭到失败。年 , 实验室的在《美国声学学报》上发

表

关于同志近三年现实表现材料材料类招标技术评分表图表与交易pdf 视力表打印pdf 用图表说话 pdf

文章声称 , 就目前的理论水平 , 人们不可能实现语音自动识别。这篇文章在科学界引起一场轩然大波 , 使科学家们冷静下来 , 重新考虑问题。从那以后 , 人们不再企图从根本上一揽子加以解决即识别无论什么人说的无论什么 , 而是把问题分成几个较小的问题 , 再一个一个地加以解决。两条研究途径研究语音识别的途径主要有两条。一是人工智能 , 因为人们并不能很好地识别语音的音素 , 就企图先作出一些限制规定要使用的字集 , 总结句法规则 , 分析句子可能应用的场合等 , 从而在比音素更高的水平上去识别一个句子。在年至年间 , 由美国国防部资助以一

计划

项目进度计划表范例计划下载计划下载计划下载课程教学计划下载

为背景 , 美国在这方面做了很大努力。共有五个实验室投入了这项研究工作 , 结果可以说是一半失败了。仅有大学的一个系统可以处理非常简单的语音 , 且计算量大得惊人 , 分钟才能识别出一个秒的句子。显然 , 这是没有实用价值的。另一条研究途径相比之下成果较大。它的基本思想是先把问题简化 , 即制定一个计划 , 实现一一能够识别一个小小字集的系统。被识别的字是由一个语者一个一个地发出。这个方法称为 “ 整体法 ” , 因为是对单字作整体处理。识别分为学习和识别两个过程 , 在系统学习的时候 , 字集中的字由语者一个个地发音 , 系统把相应的声学图存入存贮器。当识别的时候 , 系统把要识别的字和字集中的参考字声学图进行比较 , 找出最接近的字 , 这是识别的结果。在此基础上 , 公司于年实现了第一台商业化语音识别系统。接着 , 不少其他实验室和企业都在这方面取得了一些新的成果 , 使这个方法日趋完善。苏联科学家和 , 日本科学家。和先后发明了动态程序算法 , 使得未知字和参考字的比较过程得到了极大改善 , 即使是一个失真很大的字也有可能被识别。接着 , 人们希望从一个一个字的识别扩大到一串字的识别句子识别。采用变化的动态程序算法 , 能够检出句子中的关键字 , 从而使识别句子成为可能。年 , 日水公司制出第一台可识别一串字的商业化连续语音识别系统在这领域中的另一巨大进步是实现了多人语音识别系统 , 即几个不同的人讲同一字时 , 都能被识别。先由不同的人对一组不同的字发音 , 运用自动分类方法 , 建立一个完整的参考字集。在此字集帮助下 , 对多人实现语音识别。年 , 美国公司现改名实现了第一个具有这样功能的系统 , 它能识别不同人讲的组成的数字 , 从而可以用声音组成电话号码。这一阶段的进步 , 在很大程度上应归功于数字理论与微电子学的大力发展。 , 新技术对语音识别的推动微处理机的出现与广泛使用 , 使语音识别发生了飞跃。无论是单个字识别系统还是句子识别系统 , 都有了商业化的廉价机器 , 目前 , 花百美元就可买到诸如 , , 等语音识别系统。大规模和超大规模集成电路的应用 , 特别是数字信号电路的应用和一些专门电路的相继出现 , 语音识别水平又大大提高了一步。首先在单板实现了一个转换器和个二阶数字滤波器。接着 , 和等又相继实现了更强功能的专门电路。这些技术使得语音信号处理所需的运算更加迅速 , 精度大大提高 , 价格更加便宜 , 一最近 , 公司已宣布能在一块集成电路上实现多人语音识别系统。 , 今后发展方向日本一些大企业 , 如日立、东芝、松下目前已经宣布在不久的将来将能生产出一种能用语言控制的打字机。由日本人首先生产一台日语打字系统这并不奇怪 , 因为这与日语本身的特点有关。而要生产一台西方语言打字机系统那就困难多了 , 因为西方语言由几千个音节组成。但是即便如此 , 公司还是实现了一个字单个语者识别系统 , 正确识别率达形。实现的语音系统可识别 , 字。目前人们仍在用不同的方法进一步提高语音识别系统的能力。其中主要有 ①预知音节识别方法 , 它使得存贮一个字集所需的容量大大地降低 ②把要识别的最小单位划得更短一些 , 如音节、半音节、部分音素等。以这样形式的几千个小单位对字进行编码 ③建立识别专家系统。多人语音识别系统也同样应该得到改善与发展。象目前水平那样仅仅识别几十个字是不够的 , 应能识别由更多重要字组成的字集。连续语言的识别系统也应继续进行深入研究。由于处理自然语言时用的音节解码技术有了发展 , 再加上前面所提及的各项技术的发展 , 估计美国的一计划很快将会导致商业产品出现。剩下的关键问题是如何使这样的一个系统能很快适用于任何一种新的语言和一个新的语者。一一附带说明一下 , 语音识别领域内从没有一个永久的主宰者。往往总是先由一些小型的研究机构和企业进行创新 , 而后由大企业及依附他们的研究机构加以推进 , 在竞争中相互促进。语音合成语音合成是用机器来模拟发出人的自然语言。这项研究也有两种不同方法。一是压缩语音的恢复合成 , 二是由课文合成语音。前者为整体法 , 后者为音节法。语音的恢复合成整体法首先把字集中的字一个个地发音并进行分析 , 或多或少地作出信息压缩并存贮起来。需要时再以其为基础进行合成。一般来说 , 用这种方法产生的合成语音音质较好 , 且适用于各种不同语言。缺点是仅能合成一个由固定字集组成的语音。是一个压缩语音合成系统 , 它有一个外围设备 , 在其巨大的磁盘中存贮了语音信息供合成时使用。年 , 采用了本公司生产的集成电路 , 使语音合成飞跃了一步。这种电路能以位秒的速度对编码字进行恢复合成。相对于简短语音大约仅有 , 个采样比特 , 合成速度是很快的。不久后 , 。又推出了一个巧妙的听写系统 , 供教育工作者使用。与此同时 , 供语音合成用的集成电路的价格和体积都大大减少。真正的困难在于字集的编码。在其达拉斯城实验室做了许多试验 , 创造了一种新的编码方法 , 从而降低了信息价格比。该公司还打算在几个国家建立语音实验室。非利浦不甘落后 , 推出了语音合成电路。最近公司则推出 , 首次实现了一种编码逻辑 , 使得使用者可自己产生所需要的字集。目前 , 又实现了便携式语音分析合成系统 , 在通用型编码方面取得了更多的成绩。上面所论及的语音合成系统仅能对已编码的字集进行单字合成。从理论说 , 不能由这些字集合成句子 , 然而 , 如果通过分析上下文关系 , 采用寄存、插入方法 , 就可以做到这一点。由课文合成语音由课文合成语音的系统比较复杂 , 它应能合成任何已写成课文的语句。合成需包括三个过程 , 即 ①字符变成音素音节翻译 ②音素变成控制信号 , 这个过程要解决一个音素向下一个音素过渡编码问题。有两种可行的办法一是给出过渡规则 , 一是存贮对应于音素过渡的信号 ③第三个过程是语音合成本身。从控制信号出发 , 利用前面提及的语音合成方法进行语音合成。和音节识别相比 , 这样的合成系统任务比较简单 , 它的目的仅仅是用一种声音 , 一种语调 , 根据一个形式来模拟句子。年法国巴黎第六大学就做出了第一台原型法文机 , 美国也生产了英文机 , 并且先后都实现了商业化。这些年来 , 随着工业技术的开发 , 其价格和体积都大大减少。但质量仍属一般。有时不好懂 , 听起来也不十分自然。如同连续语言识别与语种有关一样 , 由课文合成语音也和语言种类有很大关系 , 有些语种容易些 , 而有些则显得困难些。目前国际市场上这类产品主要有瑞典生产的瑞典语、英语、法语、意大利语、西班牙语、汉语和德语等合成系统。展望未来 , 在提高质量和降低成本前提下 , 它将取代压缩语音合成成为一种主要的语音合成方法。语者识别语音信号处理的第三个重要方面是语者识别。语者识别不是识别说了什么 , 而是识别是谁说的。目前 , 还不存在一个系统能识别一个什么话一也没说的语者。然而 , 利用语者已经说过的儿个字 , 甚至一个字而把他识别出来的系统已经存在。公司为了加强其达拉斯计算中』乙的安全管理 , 儿年前安装了一个语者识别系统。这个系一一统的错误识别率和拒识率都小于。也出售同样的系统给一个核中心作安全警卫用 , 但价格非常昂贵。把他们的电话语者识别系统推荐给第一国民银行 , 顾客经电话向银行说出规定的语音信号如账号 , 系统经识别后支付款项。但由于错识率达 , 没有得到正式采用。语者识别系统在一些要求不那么苛刻的场合 , 由于价格不高 , 还是很有用途的 , 如安全锁 , 专用仪器的开启等等。。公司生产的单板语者识别系统获得了广泛的应用。二、语音识别系统及连续语音识别上面我们对语音信号处理的发展历史及其基本问题作了简要介绍。现在着重谈谈语音识别问题。为加深理解 , 在这里先介绍一个基本的语音识别系统 , 通过它了解语音识别的理论与方法。语音信号处理的未来发展方向 , 是实现连续语言的识别。在这方面还存在不少难题 , 人们至今还未能加以解决。这里将作一简要的介绍 , 并提出今后努力方向。语音识别系统微电子技术的发展 , 使得用机器进行语音识别成为现实。在许多场合 , 利用语音进行控制与交换信息将是十分有利的 , 它比通过其它诸如可见光、按钮、键盘等介质显得更加自然。利用语音进行控制 , 手和眼睛可以解放出来处理其它事务。目前 , 语音识别在质量控制、流水线检测、邮件分检、数据输入、远距离控制、声控玩具、残疾人设备控制人工臂 , 驱动轮椅和床 , 开启电视等方面都已有了较广泛的应用。语音识别过程一个基本的语音识别过程可以分解成声学处理过程和数字处理过程。声学处理过程方框图如图所示。 , ,弋抨酬曰图声学处理过程方框图图数字处理过程方框图语音信号由话筒输人 , 经预处理以改善信号质量 , 再经一组通带滤波器滤波。滤波后的信号由辐度检波器检出信号 , 再经过多路器控制 , 由转换器转换成数字信号。数字处理过程方框图如图所示。经获得的数字信号由计算机进行处理 , 在存于中的字典参与下 , 输人语音信号被识别 , 或被拒识。对一个不大的字集 , 采用较简单的算法 , 在一块单板机上就可实现这个过程。理论与方法由于我们介绍的系统是一个单字组系统 , 即一次处理一个字组 , 要求每次发音时间不小于秒 , 最长不超过秒。在不同的系统中 , 这两个时间是可以调整的。利用信号电平来判断一个字的开始与结束 , 如果信号电平大于一门限 , 则认为字已开始 , 如信号电平保持一段时间比如为零 , 则认为字已结束。一一输人信号在预处理阶段进行电流放大和幅度限制以后 , 经分布于至范围内的个通带滤波器滤波 , 转换成位二进制信号 , 由微处理机处理。一次采样的结果 , 获得一个长度为、高度为的位方块 , 记位为一单元。在对输入信林号采样结束之后 , 获得如图所示的个方块。为了使不同长度的字能互相比较 , 可采用不。等长链距离算法 , 或对不同长度实行规范化。在这里仅介绍如何实现规范化 , 令规范化长度为 , 则规范比二于是有整数 , 取的整数规范化字的第个方块原字的第个方块曰曰日一时图信号采样结果规范过程即把原字中第个方块作为规范字的第个方块。每个单元用位甚至更多表示 , 数据量很大 , 给存贮与运算带来不便 , 因而再对每个单元的值进行幅度重定 , 重定值仅用位表示。方法是把单元值同一参考值相比较 , 如大于这参考值 , 则取值为 , 否则为。考虑到随频率的不同 , 语音幅度会发生变化 , 对一个方块仅取一参考值来比较个值 , 误差太大。因而把个值分成二组 , 上个为一组 , 下个为一组。参考值了由下式决定。各通道强度上个通道的值与湘比较 , 而下个通道的值则与相比较。假设一个字的平均长度为 , 规范长度为 , 那么长度规范化后仅利用形形信息量。再经幅度重定后 , 信息利用量仅为号黔黯 ’ 一形学习与识别如产生一个个参考字的字集 , 必须有一个 “学习 ”过程 , 即一个一个地输人廷个字不止一遍 , 对其作如上的处理 , 获得一个特征集 , 并存入 “ 字典 ” 。 , 一 ‘, “ , 一‘ , ‘, “ , , ’一 , ‘, 二 , , ⋯⋯ 识别的过程就是一个未知与参考的比较过程 , 可采用动态程序算法。但为简单起见 , 这里介绍直接距离法。令未知的特征矩阵为 , 。 , 为第频率通道第采样点的语音信号幅度值。与参考的距离罕由下式决定一一丫万万 , 。。 , , 考虑到不同字输入时在时间上有些差别 , 仅用式计算距离有时会产生较大误差 , 因此另外再计算两个距离寸’和丁’ 丁二万艺 , , , , 。 , 二艺艺 , ① , , , , 最后 , 取作为与之间的距离丫, , 王, 寸对全部参考字作述计算 , 得到个距离。如果是所有中最小的一个 , 那么被识别成参考字。事实上 , 只说明与最接近 , 并不一定证明可识别成。因此需要根据实验规定一个「限。如果 , 小于 , 才确认被识别为 , 否则被拒识。连续语言识别单字识别系统只能识别单字。单字识别系统的基本立足点之一 , 是两个单字间有一段空白 , 两个空白间一定是一个单字。串字识别系统和多语者识别系统都仅仅是些技术上的改善 , 根本基础是不变的。当进行连续语言识别时 , 字的分界面不清楚。为解决这问题 , 唯一可行的办法是撇开字 , 另外找寻更小的、数目有限的实体作为基础 , 这些实体就如文章中的字母一样 , 在语言中叫做 “ 音素 ” 。音素是语音的最小基本单位 , 音素的改变导致字义的改变。如和是两个不同的音素 , 下面的几组文字就仅由于 , 的变化而形成不同的字。英文等价酒馆法文虱子端 , 这儿不发音中文斌怕江爸这表明问题似乎很简单 , 只要把音素识别出来就可以识别单字。但事实并非如此 , 目前最好的语音分解系统也难以正确地识别全部音素。采用 “ 音素群 ”方法 , 即对每一音素给出几个可能的识别结果 , 一次结果的准确率仅达形 , 三次结果中有一次谁确的概率也只有。这样的水平对实际处理是很不够的。这只是对一个试验语者而言 , 如是多语者系统则更加不够了。为了更好地弄清语音分解成音素的困难 , 有必要对人的发音过程作一分析。很清楚 , 我们希望把语音分成许多小段 , 每一小段相对于一个音素 , 好比一串项链上的珍珠一样。但发音是一个连续过程 , 语言信号是一个连续信号 , 是难以找到这些 “珍珠 ”的。先看一个元音发声过程。来自肺部的空气使声带振动 , 形成声波。声波通过声道 , 最后由嘴唇发出。不同的声肌运动产生不同的声音。从口腔发出的声波在某些频率处能量较大 , 形成共振峰。最小的频率指共振峰频率为声波的基频。再看一个辅音情况 , 某些辅音具有同种发音方式 , 如清辅音 , , 发音时声道都有瞬间关闭过程。发音时由嘴唇完成这关闭过程 , 发音时由舌头放在牙齿后完成 , 等等。由关闭形成小小的休止之后 , 声道重新打开 , 产生一个爆破音 , 然后接着发出下面的元音。分析了元音与辅音 , 现在看一个简单的、由辅音与元音交替组成的句子。在发声比较慢时 , 每个元音的发音方式比较固定 , 共振峰频率也比较稳定。但是讲连续语言时 , 情况就不一样了。一一元音的发声向着下一个辅音移动 , 从而影响了每一个音素 , 且这种影响随机变化很大 , 使得无法生成合适的模式来识别音素。既然以音素为单位有难处 , 那么可否用比音素更小的单位呢人们试图把音素分解成几个发音过程 , 但是此路也行不通。比较可行的做法是从比音素更大的单元出发 , 如从半音节、音节出发去识别。人们在这方面已有一些成果 , 但还没有做出一个令人满意的实用系统。另外 , 也还缺乏真正有效的数学工具来解决语言问题。连续语言处理的实用价值是很大的 , 目前许多人都在继续进行研究。最后 , 提一下我国的情况。不少单位 , 如哈工大、清华、自动化所、华中工学院等都已在语音识别 , 特别是单语者识别的研究方面做了许多工作和获得了一些成果。相信 , 在汉字识别问题被重视的同时 , 汉语言的识别也会越来越发展。参考文献〔〕 , , ‘ , 语音技术当前状况及繁荣的将来之分析 , , , 〔〕一 , , , , 〔〕 , , , , 一〔〕叶培建 , 微机语音识别系统的实现法文 , 工作报告 , 瑞士纳沙太尔大学 ,

本文档为【语音信号处理综述】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。

语音信号处理综述

热门搜索

历史搜索