为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

语音信号处理综述

2011-11-12 7页 pdf 511KB 51阅读

用户头像

is_476446

暂无简介

举报
语音信号处理综述 控 制 工 程 年第 期 语 音 信 号 处 理 综 述 叶 培 建 摘 要 模式识别 、 人工 智能、 自动化和机器人等学科的迅速发展 , 需要我们在语音信 号处理 方面做 出更 多的努力 。 本文准备分 两部分对语音信号处理作一综述 。 第一 部 分是语音信号处理发展历史及其基本问题 , 着重介绍语音识别 、 语音合成及语者识 别的发展史以及 它们吝 自的基本问题 。 第二部分是语音识别系统及连续语言识别 , 介绍一本基本的语音识别系统 , 分析连续语言识别之 困难所在 , 指出应努力的方向。 希望通过这篇综...
语音信号处理综述
控 制 工 程 年第 期 语 音 信 号 处 理 综 述 叶 培 建 摘 要 模式识别 、 人工 智能、 自动化和机器人等学科的迅速发展 , 需要我们在语音信 号处理 方面做 出更 多的努力 。 本文准备分 两部分对语音信号处理作一综述 。 第一 部 分是语音信号处理发展历史及其基本问 , 着重介绍语音识别 、 语音合成及语者识 别的发展史以及 它们吝 自的基本问题 。 第二部分是语音识别系统及连续语言识别 , 介绍一本基本的语音识别系统 , 连续语言识别之 困难所在 , 指出应努力的方向。 希望通过这篇综迷 , 对语音信号处理 问题有个较全面 的了解 , 明确今后研究的方向。 一 、 语音信号处理发展历史及其基本问题 年 , 美国贝尔实验室首先推出了 发明的声音编码器 , 这个编码器能分析和修饰声 音信号 , 并进行合成而产生声音 。 在这一年的纽约博览会上 , 展 出了世界上第一个能讲话的电装 置 。 这就是语音信号 自动处理的开始 。 它 由语音识别 、 语音合成和语者识别三大部分组成 。 下面 就这三个方面的问题作较详细的介绍 。 , 语音识别 , 语音识别的发展史 作为语音 自动识别的先锋 , 瑞士科学家 一 在 年代曾用电子实现了一个能够 识别几个字的系统 。 在发展前期阶段 , 科学家们把问题看得很简单 , 认为很快就可以解决语音识 别问题 , 他们的设想是先识别音素 每种语音仅有约 余个音素 , 再识别单字 , 然后是识别句子 。 但屡经试验 , 均遭到失败 。 年 , 实验室的 在《美国声学学报 》上发文章声称 , 就 目 前的理论水平 , 人们不可能实现语音 自动识别 。 这篇文章在科学界引起一场轩然大波 , 使科学家 们冷静下来 , 重新考虑问题 。 从那以后 , 人们不再企图从根本上一揽子加以解决 即识别无论什么 人说的无论什么 , 而是把问题分成几个较小的问题 , 再一个一个地加以解决 。 两条研究途径 研究语音识别的途径主要有两条 。 一是人工智能 , 因为人们并不能很好地识别语音的音素 , 就企图先作出一些限制 规定要使用的字集 , 总结句法规则 , 分析句子可能应用的场合等 , 从而 在比音素更高的水平上去识别一个句子 。 在 年至 年间 , 由美国国防部资助以 一 为背景 , 美国在这方面做了很大努 力 。 共有五个实验室投入了这项研究工作 , 结果可以说是一半失败了 。 仅有 大学的一个 系统可以处理非常简单的语音 , 且计算量大得惊人 , 分钟才能识别出一个 秒的句子 。 显然 , 这是没有实用价值的 。 另一条研究途径相比之下成果较大 。 它的基本思想是先把问题简化 , 即制定一个计划 , 实现 一 一 能够识别一个小小字集的系统 。 被识别的字是由一个语者一个一个地发 出 。 这个方法称 为 “ 整 体 法 ” , 因为是对单字作整体处理 。 识别分为学 习和识别两个过程 , 在系统学 习的时候 , 字集中的字由 语者一个个地发音 , 系统把相应的声学图存入存贮器 。 当识别的时候 , 系统把要识别的字和字集 中的参考字声学图进行比较 , 找 出最接近的字 , 这是识别的结果 。 在此基础上 , 公司于 年实现了第一台商业化语音识别系统 。 接着 , 不少其他实验室和企业都 在这方面取得了一些新的成果 , 使这个方法 日趋完善 。 苏联科学家 和 , 日本科学家 。 和 先后发明 了动态程序算法 , 使得未 知字和参考字的比较过程得到了极大改善 , 即使是一个失真很大的字也有可能被识别 。 接着 , 人 们希望从一个一个字的识别扩大到一串字的识别 句子识别 。 采用变化的动态程序算法 , 能够检 出句子中的关键字 , 从而使识别句子成为可能 。 年 , 日水 公司制出第一台可识别一串字的 商业化连续语音识别系统 在这领域中的另一巨大进步是实现了多人语音识别系统 , 即几个不同的人讲同一字时 , 都能 被识别 。 先由不同的人对一组不同的字发音 , 运用 自动分类方法 , 建立一个完整的参考字集 。 在 此字集帮助下 , 对多人实现语音识别 。 年 , 美国 公司 现改名 实现了第一个具 有这样功能的系统 , 它能识别不同人讲的 组成的数字 , 从而可以用声音组成电话号码 。 这一阶段的进步 , 在很大程度上应归功于数字理论与微电子学的大力发展 。 , 新技术对语音识别的推动 微处理机的出现与广泛使用 , 使语音识别发生了飞跃 。 无论是单个字识别系统还是句子识别 系统 , 都有了商业化的廉价机器 , 目前 , 花 百美元就可买到诸如 , , 等语音识别系统 。 大规模和超大规模集成电路的应用 , 特别是数字信号电路的应用和一些专门电路的相继出现 , 语音识别水平又大大提高了一步 。 首先在单板 实现了一个 转换器和 个二阶数字滤波 器 。 接着 , 和 等又相继实现了更强功能 的专门电路 。 这些技术使得语音信号处理所需的 运算更加迅速 , 精度大大提高 , 价格更加便宜 , 一 最近 , 公司已宣布能在一块集成电路上实现 多人语音识别系统 。 , 今后发展方向 日本一些大企业 , 如 日立 、 东芝 、 松下 目前已经宣布在不久的将来将能生产 出一种能用语言 控制的打字机 。 由 日本人首先生产一台 日语打字系统这并不奇怪 , 因为这与 日语本身的特点有关 。 而要生产一台西方语言打字机系统那就困难多了 , 因为西方语言由几千个音节组成 。 但是 即便如 此 , 公司还是实现了一个 字 单个语者 识别系统 , 正确识别率达 形 。 实现的 语音系统可识别 , 字 。 目前人们仍在用不同的方法进一步提高语音识别系统的能 力 。 其中主要有 ①预知音节识别方 法 , 它使得存贮一个字集所需的容量大大地降低 ②把要识别的最小单位划得更短一些 , 如音节 、 半音节 、 部分音素等 。 以这样形式的几千个小单位对字进行编码 ③建立识别专家系统 。 多人语音识别系统也同样应该得到改善与发展 。 象 目前水平那样仅仅识别几十 个字是不够的 , 应能识别由更多重要字组成的字集 。 连续语言的识别系统也应继续进行深入研究 。 由于处理 自然 语言时用的音节解码技术有了发展 , 再加上前面所提及的各项技术的发展 , 估计美国的 一 计划很快将会导致商业产品出现 。 剩下的关键问题是如何使这样的一个系统能很快适用 于任何一 种新的语言和一个新的语者 。 一 一 附带说明一下 , 语音识别领域内从没有一个永久的主宰者 。 往往总是先由一些小型的研究机 构和企业进行创新 , 而后由大企业及依附他们的研究机构加以推进 , 在竞争中相互促进 。 语音合成 语音合成是用机器来模拟发出人 的 自然语言 。 这项研究也有两种不同方法 。 一是压缩语音的 恢复合成 , 二是由课文合成语音 。 前者为整体法 , 后者为音节法 。 语音的恢复合成 整体法首先把字集中的字一个个地发音并进行分析 , 或多或少地作出信息压缩并存贮起来 。 需要时再以其为基础进行合成 。 一般来说 , 用这种方法产生的合成语音音质较好 , 且适用于各种 不同语言 。 缺点是仅能合成一个由固定字集组成的语音 。 是一个压缩语音合成系统 , 它有一个外围设备 , 在其巨大的磁盘中存贮了 语 音 信 息供合成时使用 。 年 , 采用了本公司生产的 集成电路 , 使语音合成飞跃了一 步 。 这种电路能以 位 秒的速度对编码字进行恢复合成 。 相对于简短语音大约仅有 , 个 采样比特 , 合成速度是很快的 。 不久后 , 。又推出了一个巧妙的听写系统 , 供教育工作者 使 用 。 与此同时 , 供语音合成用的集成电路的价格和体积都大大减少 。 真正的困难在于字集的编码 。 在其达拉斯城实验室做了许多试验 , 创造了一种新的编码方法 , 从而降低了信息价格 比 。 该 公司还打算在几个国家建立语音实验室 。 非利浦不甘落后 , 推 出了语音合成电 路 。 最 近 公司则推出 , 首次实现了一种编码逻辑 , 使得使用者可 自己产生所需要的字集 。 目前 , 又实现了便携式语音分析 合成系统 , 在通用型编码方面取得了更多的成绩 。 上面所论及的语音合成系统仅能对已编码的字集进行单字合成 。 从理论 说 , 不能 由这些字 集合成句子 , 然而 , 如果通过分析上下文关系 , 采用寄存 、 插入方法 , 就可以做到这一点 。 由课文合成语音 由课文合成语音的系统比较复杂 , 它应能合成任何已写成课文的语句 。 合成需包括三 个过程 , 即 ①字符变成音素 音节翻译 ②音素变成控制信号 , 这个过程要解决一个音素向下一 个音素过 渡编码问题 。 有两种可行的办法 一是给出过渡规则 , 一是存贮对应 于音素过渡的信号 ③第三 个过程是语音合成本身 。 从控制信号出发 , 利用前面提及的语音合成方法进行语音合成 。 和音节识别相比 , 这样的合成系统任务比较简单 , 它的 目的仅仅是用一种声音 , 一种语调 , 根据一 个形式来模拟句子 。 年法国巴黎第六大学就做 出了第一台原型法文机 , 美国也生产了 英文机 , 并且先后都实现了商业化 。 这些年来 , 随着工业技术的开发 , 其价格和体积都大大减少 。 但质量仍属一般 。 有时不好懂 , 听起来也不十分 自然 。 如同连续语言识别与语种有关一样 , 由课文合成语音也和语言种类有很大关系 , 有些语种容 易些 , 而有些则显得困难些 。 目前国际市场 上这类产品主要有瑞典 生产的瑞典语 、 英语 、 法语 、 意大利语 、 西班牙语 、 汉语和德语等合成系统 。 展望未来 , 在提高质量和降低成本前提下 , 它将取代压缩语音合成成为一种主要的语音合成方法 。 语者识别 语音信号处理的第三 个重要方面是语者识别 。 语者识别不是识别说了什么 , 而是识别是谁说 的 。 目前 , 还不存在一 个系统能识别一个什么话 一 也没说的语者 。 然而 , 利用语者已经说过的儿个 字 , 甚至一个字而把他识别出来的 系统已经存在 。 公司为了加强其达拉斯计算中』乙的安全管理 , 儿年前安装了一个语者识别系统 。 这 个系 一 一 统的错误识别率和拒识率都小于 。 也出售同样的系统给一个核中心作安全警卫用 , 但价 格非常昂贵。 把他们的电话语者识别系统推荐给第一国民银行 , 顾客经电话 向银行说 出规定的语音信号 如账号 , 系统经识别后支付款项 。 但由于错识率达 , 没有得到正 式采用 。 语者识别系统在一些要求不那么苛刻的场合 , 由于价格不高 , 还是很有用途的 , 如安全 锁 , 专用仪器的开启等等 。 。公司生产的单板 语者识别系统获得了广泛的应用 。 二 、 语音识别系统及 连续语音识别 上面我们对语音信号处理的发展历史及其基本问题作了简要介绍 。 现在着重谈谈语音识别问 题 。 为加深理解 , 在这里先介绍一个基本的语音识别系统 , 通过它了解语音识别的理论与方法 。 语音信号处理的未来发展方向 , 是实现连续语言的识别 。 在这方面还存在不少难题 , 人们至今还 未能加以解决 。 这里将作一简要的介绍 , 并提出今后努力方向 。 语音识别系统 微电子技术的发展 , 使得用机器进行语音识别成为现实 。 在许多场合 , 利用 语音进行控制与 交换信息将是十分有利的 , 它比通过其它诸如可见光 、 按钮 、 键盘等介质显得更加 自然 。 利用语 音进行控制 , 手和眼睛可以解放出来处理其它事务 。 目前 , 语音识别在质量控制 、 流水线检测 、 邮件分检 、 数据输入 、 远距离控制 、 声控玩具 、 残疾人设备 控制人工臂 , 驱动轮椅和床 , 开启电 视 等方面都已有了较广泛的应用 。 语音识别过程 一个基本的语音识别过程可以分解成声学处理过程和数字处理过程 。 声学处理过程方框图如图 所示 。 , ,弋抨酬 曰 图 声学处理过程方框图 图 数字处理过程方框图 语音信号由话筒输人 , 经预处理以改善信号质量 , 再经一组通带滤波器滤波 。 滤波后的信号 由辐度检波器检出信号 , 再经过多路器控制 , 由 转换器转换成数字信号 。 数字处理过程方框图如图 所示 。 经 获得的数字信号由计算机进行处理 , 在存于 中的字典参与下 , 输人语音信号被 识别 , 或被拒识 。 对一个不大的字集 , 采用较简单的算法 , 在一块单板机上就可实现这个过程 。 理论与方法 由于我们介绍的系统是一个单字 组 系统 , 即一次处理一个字 组 , 要求每次发音时间不小 于 秒 , 最长不超过 秒 。 在不同的系统中 , 这两个时间是可以调整的 。 利用信号电平来判断 一个字的开始与结束 , 如果信号电平大于一门限 , 则认为字已开始 , 如信号电平保持一段时 间 比如 为零 , 则认为字已结束 。 一 一 输人信号在预处理阶段进行电流放大和幅度限制以后 , 经分布于 至 范围内的 个 通带滤波器滤波 , 转换成 位二进制信号 , 由微处理机处理 。 一次采样的结果 , 获得一个长度为 、 高度 为 的 位方块 , 记 位为一单元 。 在对输入信 林 号采样结束之后 , 获得如图 所示的 个方块 。 为了使不同长度的字能互相 比较 , 可采用不 。 等长链距离算法 , 或对不同长度实行规范化 。 在 这里仅介绍如何实现规范化 , 令规范化长度为 , 则规范比 二 于是有 整数 , 取 的整数 规范化字的第 个方块 原字的第 个方块 曰曰 日一 时 图 信号采样结果 规范过程即把原字中第 个方块作为规范字的第 个方块 。 每个单元用 位 甚至更多 表示 , 数据量很大 , 给存贮与运算带来不便 , 因而再对每个单元 的值进行幅度重定 , 重定值仅用 位表示 。 方法是把单元值同一参考值相比较 , 如大于这参考值 , 则取值为 , 否则为 。 考虑到随频率的不同 , 语音幅度会发生变化 , 对一个方块仅取一参考值来 比较 个值 , 误差太大 。 因而把 个值分成二组 , 上 个为一组 , 下 个为一组 。 参考值 了由下 式决定 。 各通道强度 上 个通道的值与 湘比较 , 而下 个通道的值则与 相比较 。 假设一个字的平均长度为 , 规范长度为 , 那么长度规范化后仅利用 形 形 信息量 。 再经幅度重定后 , 信息利用量仅为 号黔黯 ’ 一 形 学习与识别 如产生一个 个参考字的字集 , 必须有一个 “学 习 ”过程 , 即 一个一个地输人廷 个字 不止 一遍 , 对其作如上的处理 , 获得 一个特征集 , 并存入 “ 字典 ” 。 , 一 ‘, “ , 一‘ , ‘, “ , , ’一 , ‘, 二 , , ⋯⋯ 识别的过程就是一个未知与参考的比较过程 , 可采用动态程序算法 。 但为简单起见 , 这里介 绍直接距离法 。 令未知 的特征矩阵为 , 。 , 为第 频率通道第 采样点的语音信号幅度值 。 与 参考 的距离 罕由下式决定 一 一 丫 万 万 , 。 。 , , 考虑到不 同字输入时在时间上有些差别 , 仅用 式计算距离有时会产生较大误差 , 因此另外再计 算两个距离 寸’和 丁’ 丁二 万 艺 , , , , 。 , 二 艺 艺 , ① , , , , 最后 , 取 作为 与 之间的距离 丫, , 王, 寸 对全部参考字作 述计算 , 得到 个距离 。 如果 是所有 中最小的一个 , 那么 被识别成参考 字 。 事实 上 , 只说明 与 最接近 , 并不一定证明 可识别成 。 因此需要根据实验规定一个 「限 。 如果 , 小于 , 才确认被识别为 , 否则 被拒识 。 连续语言识别 单字识别系统只能识别单字 。 单字识别系统的基本立足点之一 , 是两个单字间有一段空白 , 两个空白间一定是一个单字 。 串字识别系统和多语者识别系统都仅仅是些技术上的改善 , 根本基 础是不变的 。 当进行连续语言识别时 , 字的分界面不清楚 。 为解决这问题 , 唯一可行的办法是撇 开字 , 另外找寻更小的 、 数 目有限的实体作为基础 , 这些实体就如文章中的字母一样 , 在语言中 叫做 “ 音素 ” 。 音素是语音的最小基本单位 , 音素的改变导致字义 的改变 。 如 和 是两个不同的音素 , 下面 的几组文字就仅由于 , 的变化而形成不同的字 。 英文 等价 酒馆 法文 虱子 端 , 这儿 不发音 中文 斌怕 江 爸 这 表明问题似乎很简单 , 只要把音素识别出来 就可以识别单字 。 但事实并非如此 , 目前最好的 语音分解系统也难以正确地识别全部音素 。 采用 “ 音素群 ”方法 , 即对每一音素给出几个可能的识 别结果 , 一次结果的准确率仅达 形 , 三次结果中有一次谁确的概率也只有 。 这样的水平对 实际处理是很不够的 。 这只是对一个试验语者而言 , 如是多语者系统则更加不够 了 。 为了更好地弄清语音分解成音素的困难 , 有必要对人的发音过程作一分析 。 很清楚 , 我们希 望把语音分成许多小段 , 每一小段相对于一个音素 , 好比一串项链上的珍珠一样 。 但发音是一个 连续过程 , 语言信号是一个连续信号 , 是难以找到这些 “珍珠 ”的 。 先看一个元音发声过程 。 来 自肺部的空气使声带振动 , 形成声波 。 声波通过声道 , 最后 由嘴 唇发 出 。 不同的声肌运动产生不 同的声音 。 从 口 腔发 出的声波在某些频率处能量较大 , 形成共振 峰 。 最小的频率 指共振峰频率 为声波的基频 。 再看一个辅音情况 , 某些辅音具有同种发音方式 , 如清辅音 , , 发音时声道都有瞬间关闭 过程 。 发音时由嘴唇完成这关闭过程 , 发音时由舌头放在牙齿后完成 , 等等 。 由关闭形成小小 的休止之后 , 声道重新打开 , 产生一个爆破音 , 然后接着发 出下面的元音 。 分析了元音与辅音 , 现在看一个简单的 、 由辅音与元音交替组成的句子 。 在发声比较慢时 , 每个元音的发音方式比较固定 , 共振峰频率也比较稳定 。 但是讲连续语言时 , 情况就不一样了 。 一 一 元音的发声向着下一个辅音移动 , 从而影响了每一个音素 , 且这种影响随机变化很大 , 使得无法 生成合适的模式来识别音素 。 既然以音素为单位有难处 , 那么可否用比音素更小的单位呢 人们 试图把音素分解成几个发音过程 , 但是此路也行不通 。 比较可行的做法是从比音素更大的单元 出 发 , 如从半音节 、 音节 出发去识别 。 人们在这方面已有一些成果 , 但还没有做 出一个令人满意的 实用系统 。 另外 , 也还缺乏真正有效的数学工具来解决语言问题 。 连续语言处理的实用价值是很 大的 , 目前许多人都在继续进行研究 。 最后 , 提一下我国的情况 。 不少单位 , 如哈工大 、 清华 、 自动化所 、 华中工学院等都已在语 音识别 , 特别是单语者识别的研究方面做了许多工作和获得了一些成果 。 相信 , 在汉字识别问题 被重视的同时 , 汉语言的识别也会越来越发展 。 参 考 文 献 〔 〕 , , ‘ , 语音技术当前状况及繁荣的将来之分析 , , , 〔 〕 一 , , , , 〔 〕 , , , , 一 〔 〕叶培建 , 微机语音识别系统的实现 法文 , 工作报告 , 瑞士纳沙太尔大学 ,
/
本文档为【语音信号处理综述】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索