为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

语音信号处理2

2016-12-18 39页 pdf 751KB 434阅读

用户头像

is_392846

暂无简介

举报
语音信号处理2 1 内容: 第第22章:语音信号处理的基础知识章:语音信号处理的基础知识 ‹ 概述 ‹ 语音和语言 ‹ 汉语语言特点 ‹ 语音生成系统和感知系统 ‹ 语音信号生成的数学模型 ‹ 语音信号特性分析 2 2.1 2.1 概述概述 语音信号处理是研究用数字信号处理技 术对语音信号进行处理的一门学科。其目的 是要得到一些反应语音信号重要特征的语音 参数,或者通过处理某种运算以达到某种用 途的要求。 例如: 高效的传输或存储 人工合成出语音 辨识出说话者 识别讲话的内容等。 3 2.2 2.2 ...
语音信号处理2
1 : 第第22章:语音信号处理的基础知识章:语音信号处理的基础知识 ‹ 概述 ‹ 语音和语言 ‹ 汉语语言特点 ‹ 语音生成系统和感知系统 ‹ 语音信号生成的数学模型 ‹ 语音信号特性分析 2 2.1 2.1 概述概述 语音信号处理是研究用数字信号处理技 术对语音信号进行处理的一门学科。其目的 是要得到一些反应语音信号重要特征的语音 参数,或者通过处理某种运算以达到某种用 途的要求。 例如: 高效的传输或存储 人工合成出语音 辨识出说话者 识别讲话的内容等。 3 2.2 2.2 语音和语言语音和语言 一、语音的定义 语音是人类发音器官发出的、具有一定意义的、 能起信息交流作用的声音;由一连串的音所组 成,是组成语言的声音。 语音(Speech) 声音 (Acoustic) 语言 (Language) 语言学: 对各个音的排列规则及其含义的研究 语音学:研究言语过程的一门科学。它考虑的 是语音产生、语音感知等过程以及对语音中各 个音的物理特征和分类问。 分支: 发音语音学、声学语音学、听觉语音学 4 2.2 2.2 语音和语言语音和语言 二、人的说话过程 • 想说:大脑产生说话的意向(intension),接着生成概念 (concept),选择合适的词汇,按语法组织成语言; • 说出:发音器官协调工作,发出声音(产生声波),面部 的肌肉、器官和体态与发音器官配合,送出多种信息以便 让听者更好的理解语音,与此同时,讲话者的听觉系统接 收到自己的声音,并随之修改; • 传输:声波凭借质点的运动而传播; • 接收:人的听觉系统负责接收声波,包括外耳、中耳、内 耳。内耳的基低膜被声波刺激而振动,激发神经元产生脉 冲,传给大脑,从而感知到声音。 • 理解:听觉神经中枢收到脉冲信息,通过一系列复杂的处 理过程,辨认出讲话人,理解其信息内容。 5 说话过程包括相当复杂因素: 心理、生理、以及个人的和社会等 2.2 2.2 语音和语言语音和语言 6 三、几个基本概念 1、语音的声学特性 语音是人的发声器官发出的一种声波 音色/质:一种声音区别于另一种声音的基本特征 音调/高:声音的高低,取决于声波的频率 音强:声音的强弱,取决于发音体振动幅度的大小 音长:指声音的长短,也就是声波延续的长度,取 决于发音体振动持续的时间 音高音强音色总是随着音波在时间上的延续现出 来的,音长的变化往往会影响到音质音高和音强。 2.2 2.2 语音和语言语音和语言 7 2.语音的组成 语音 音节 音素 元音:当声带振动发出的声音气流从喉腔、咽 腔进入口腔从唇腔出去时,气流顺利通过。 辅音:通路的某一部分封闭起来或受到阻碍, 气流被阻不能畅通,克服这种阻碍产生的音。 2.2 2.2 语音和语言语音和语言 说话时一次发出,具有 响亮的中心,并被明显 感觉到的语音片段。 语音发音的 最小单位 8 元音: z 舌头在口腔中的位置和口型 z 共振峰: 声道可以看成是一根具有非均匀截面的声管, 当元音激励进入声道时会引起共振,共振的频 率称共振峰频率。包括位置和频带宽度。 区别不同元音的重要参数。 F1 :与舌位高低有关,舌位高, F1 低 F2 :与舌位前后有关,舌位靠前, F2 高 F3 :受舌尖活动的影响 2.2 2.2 语音和语言语音和语言 9 产生元音的条件: 1)声道受到声带振动的激励引起共振 2)在语音流的持续过程中,声道不发生极端的狭 窄,并维持较稳定的形状 3)和鼻腔不产生耦合,声音只从口腔辐射出去 2.2 2.2 语音和语言语音和语言 10 辅音: z 把呼气流在声道的某一位置用适当的方法进 行阻碍而产生的。 阻碍位置称调音点,方法称调音方式。 z 按发音时声带有无振动 清音:无,部分辅音 浊音:有,元音、部分辅音 z 基音频率:浊音的声带振动基本频率,F0 随时间变化的。 2.2 2.2 语音和语言语音和语言 11 2.3 汉语语言特点 音节 字 声母:21 韵母:39 声调:音节在念法上的高低升降的变化。 音素少(约60),音节少(约400),考 虑声调,有调音节(约1330)。 12 2.4 语音生成系统和语音感知系统 人的发音器官包括: 肺、气管、喉(包括声带)、 咽、鼻和口,形成一条形状 复杂的管道 声门:喉的部分 声道:从声门到嘴唇的呼吸通道, 不断改变发出不同的声音。 声带:声带是一对唇形的韧带。 基音周期:声带开启和闭合一次 基音频率:倒数 60-450Hz 2.4.1 语音生成系统 13 2.4 语音生成系统和语音感知系统 巧妙地音频信号处理器 人耳:内耳、中耳、外耳 内耳:耳翼、外耳道、鼓膜 声音放大和声源定位作用 中耳:听骨链和咽鼓管 声阻抗变换、保护内耳作用 内耳:耳蜗,听觉受纳器 声音变换成神经信号 2.4.1 语音听觉系统 14 听觉系统特性 时频分析能力; 感知到:频率20Hz-20KHz,强度-5 - 130dB; 可闻阈:能听到的最低强度,与频率有关; 隐蔽效应:在一个强信号附近,弱信号将变得不可闻; 掩蔽阈:被掩蔽掉的不可闻信号的最大声压级. 2.4.1 语音听觉系统 15 2.5 语音生成数学模型 z 建立数学模型: 寻找一种可以表达物理状态下,量与量之间 关系的数学表达。 z 基本原则:不仅具有最大的精确度,而且简单。 z 语音生成系统组成:激励、声道和辐射系统. 说明:语音信号是非平稳随机过程,特性随时间变化, 但变化比较缓慢,短时间内平稳随机过程,可采 用线性时不变模型。 16 一、浊音 声带不断张开和关闭,将产生间歇的脉冲波。 数学表达式 低通滤波器,z变换 2.5.1 激励模型 17 上式表示斜三角波形可描述为一个二极点的模型。 进一步,斜三角波脉冲可看作加权的单位脉冲 激励上述单个斜三角脉冲的结果。 该单位脉冲和幅值因子可表示成以下z变换形式 整个浊音激励模型可表示为: 浊音激励波:以基音周期为周期的斜三角脉冲串。 211 )1( 1 1 )()()( −−− −•−== zez A zEzGzU cT v 2.5.1 激励模型 11 )( −−= z A zE v 18 二、清音 发清音时,声道被阻塞形成湍流 清音激励模拟为白噪声,均值0,方差1 说明:激励简单地分为清音和浊音是不全面的。 但将两种源经过适当的网络之后,可以得 到良好的激励信号。 2.5.1 激励模型 19 一、声管模型 把声道视为由多个等长不同截面积的管子串联而成 每个管子可看作为一个四端网络,具有反射系数。 声道可由一组截面积或反射系数表示。 2.5.2 声道模型 20 二、共振峰模型 ¾ 把声道视为一个谐振腔。共振峰就是这个腔体的 谐振频率。 ¾ 人耳听觉的柯替氏器官的纤毛细胞就是按频率感 受而排列其位置的,所以这种共振峰的声道模型 方法是非常有效的。 ¾ 一般来说,一个元音用前三个共振峰来表示就足 够了;而对于较复杂的辅音或鼻音,大概要用到 前五个以上的共振峰才行。 ¾ 基于物理声学的共振峰理论,可以建立起三种实 用的共振峰模型:级联型、并联型和混合型 2.5.2 声道模型 21 1、声道模型 级联型 认为声道是一组串联的二阶谐振器。从共振峰理论 来看,整个声道具有多个谐振频率和多个反谐振频 率,可以被模拟成零极点模型 对于一般元音,则用全极点模型,传输函数: 可分解表示为多个二阶极点的网络的串联: 或 2 21 2 1 1 2 cos(2 )( ) 1 2 cos(2 ) k k k k B T B TM k B T B T k k e F T eV z e F T z e z π π − − − −− − = − += − +∏ 22 某一级幅频特性和信号流图 23 2、声道模型 并联型 ¾ 对于非一般元音以及大部分辅音,必须考虑采用零极点模 型。此时,模型的传输函数如下: ¾ 通常,N>R,且设分子与分母无公因子及分母无重根,则上 式可分解为如下部分分式之和的形式: ∑ ∑ = − = − − = N k k k R r r r za zb zV 1 0 1 )( ∑ = −− −−= M i ii i zCzB AzV 1 211 )( 24 ¾ 这就是并联型的共振峰模型。(M=5)。 25 3、声道模型 混合型 ¾ 上述两种模型中,级联型比较简单,可以用于描述一般元音。 当鼻化元音或鼻腔参与共振,以及阻塞音或摩擦音等情况 时,级联模型就不能胜任了。这时腔体具有反谐振特性,必 须考虑加入零点,使之成为零极点模型。采用并联结构的目 的就在于此,它比级联型复杂些,每个谐振器的幅度都要独 立地给以控制。但对于鼻音、塞音、擦音以及塞擦音等都可 以适用。 ¾ 因此,将级联模型和并联模型结合起来的混合模型也许是比 较完备的一种共振峰模型。 26 混合型共振峰模型 27 ¾ 从声道模型输出的是速度波 ,而语音信号是声压波 ,二者 之倒比称为辐射阻抗 。它表征口唇的辐射效应,也包括圆形的头 部的绕射效应等。 ¾ 假定口唇张开的面积远小于头部的表面积,则可近似地看成平板开 槽辐射的情况。此时,可推导出辐射阻抗的公式如下: ¾ 式中, 是口唇张开时的开口半径, 是声波 传播速度。 ¾ 辐射模型是一阶类高通滤波器。 )(nuL )(npL LZ rr rr L LjR RLjz Ω+ Ω=Ω)( , 9 128 2π=rRc aLr π3 8= a c 2.5.3 辐射模型 28 „ 综上所述,完整的语音信号的数字模型可以用三个子模型: 激励模型、声道模型和辐射模型的串联来表示。 它的传输函数可以表示为: 声道模型 v(z) 辐射模型 R(z) 随机噪声 发生器 声道参数 浊音/清音开关 uA vA 输出语音 基音频率 0F 周期脉冲 发生器 声门脉冲 模型G(z) 激励源 声道模型 辐射模型 )()()()( zRzVzUAzH ⋅= 2.5.4 语音信号的数学模型 29 ¾ U(z)是激励信号,浊音时U(z)是声门脉冲即斜三角形脉冲序 列的z变换;在清音的情况下, U(z)是一个随机噪声的z变 换。V(z)是声道传输函数,既可用声管模型,也可以共振峰 模型等来描述。 ¾ 说明: z 以上所示模型的内部结构并不和语音产生的物理过程相一致,但这种模 型和真实模型在输出处是等效的。 z 这种模型是“短时”的模型,因为一些语音信号的变化是缓慢的,例如元 音在10-30ms内其参数可假定不变。这里声道转移函数是一个参数随时间 缓慢变化的模型。 z 这一模型认为语音是声门激励源激励线性系统---声道所产生的。 30 ‹ 声学特性 ‹ 语音信号的时域波形和频谱特性 ‹ 语音信号的统计特性 2.6 语音信号的特性分析 31 一、时域波形 语音信号可以直接用它的时间波形表示出来。 汉语拼音“sou ke”的时间波形。(8kHz,16bit) 在时域波形里各个单音节间不好明显地分界,因此,图上标出的 某个音的起点只是粗略的。观察语音信号时间波形的特性,可以 通过对语音波形的振幅和周期性来观察不同性质的音素的差别。 2.6.1 语音信号的时域波形和频谱特性 32 从上图可以看出,清辅音[s][k]和元音[ou] [e]这两类 音的时间波形有很大区别。例如,从A点开始的音节[s],以 及从C点开始的[k]都是清辅音,它们的波形类似于白噪声, 振幅很小,没有明显的周期性;而从B点开始的元音[ou]以 及从D点开始的[e]都具有明显的周期性,且振幅较大。它们 的周期对应的就是声带振动的频率,即基音频率,它是声门 脉冲的间隔。如果考察其中一小段元音语音波形,从它的频 谱特性大致可以看出它们的共振峰特性。 2.6.1 语音信号的时域波形和频谱特性 33 二、频谱特性 „ 语音信号属于短时平稳信号,一般认为在10~30ms内语 音信号特性基本上是不变的,或者变化很缓慢。于是, 可以从中截取一小段进行频谱分析。给出“sou”中音素 “ou” 和清音K的频谱。 频率/kHz 幅 度 /d B 0 1 2 3 4 -50 -40 -30 -20 -10 0 10 20 30 2.6.1 语音信号的时域波形和频谱特性 34 语音的时域分析和频域分析是语音分析的两种重要方法。 显然这两种单独分析的方法均有局限性:时域分析对语音信 号的频率特性没有直观的了解;而频域分析出的特征中又没 有语音信号随时间的变化关系。由于语音信号随时间变化是 很缓慢的,因而在一段短时间内(如10ms~30ms之间,即所 谓的一帧之内)可以认为其频谱是固定不变的,这种频谱又 称为短时谱。短时谱只能反映语音信号的静态频率特性,不 能反映语音信号的动态频率特性。因此,人们致力于研究语 音的时频分析特性,把和时序相关的傅立叶分析的显示图形 称为语谱图(Sonogram,或者Spectrogram)。 2.6.2 语音信号的语谱图 35 ¾ 语谱图是一种三维频谱,它是表示语音频谱随时 间变化的图形。 ¾ 纵轴为频率,横轴为时间,任一给定频率成分在 给定时刻的强弱用相应点的灰度或色调的浓淡来 表示。 ¾ 语谱图中显示了大量的与语音的语句特性有关的 信息,它综合了频谱图和时域波形的特点,明显 地显示出语音频谱随时间的变化情况,或者说是 一种动态的频谱。记录这种谱图的仪器就是语谱 仪。 2.6.2 语音信号的语谱图 36 ¾ 语谱图上其不同的黑白程 度,形成了不同的纹路, 称为“声纹”。 ¾ 不同的人有不同的声纹, 利用声纹进行说话人识别。 2.6.2 语音信号的语谱图 37 ¾ 语音信号的统计特性可以用它的波形振幅概率密 度函数和一些统计量如均值和自相关函数来描述。 ¾ 表示语音信号的统计特性的概率密度的估算方法 是根据长时间范围内一段语音信号的大量取样数 据的幅度绝对值计算出其幅度直方图,然后,根 据统计的振幅直方图,寻找近似的概率密度表达 式。 2.6.3 语音信号的统计特性 38 通过对语音信号的统计特性的研究表明,语音信号 振幅分布的概率密度有两种逼近方法, ¾ 修正伽玛(Gamma)分布概率密度函数 ¾ 拉普拉斯(Laplace)分布概率密度函数 说明:伽玛函数逼近的效果最好,拉普拉斯函数简单。 x ekxp xk G − = π2)( x L ep αα −= 5.0 2.6.3 语音信号的统计特性 39 习题: P31 1,7, 9, 11 幻灯片编号 1 2.1 概述 2.2 语音和语言 2.2 语音和语言 2.2 语音和语言 2.2 语音和语言 幻灯片编号 7 幻灯片编号 8 幻灯片编号 9 幻灯片编号 10 2.3 汉语语言特点 2.4 语音生成系统和语音感知系统 2.4 语音生成系统和语音感知系统 幻灯片编号 14 2.5 语音生成数学模型 幻灯片编号 16 幻灯片编号 17 幻灯片编号 18 幻灯片编号 19 幻灯片编号 20 幻灯片编号 21 幻灯片编号 22 幻灯片编号 23 幻灯片编号 24 幻灯片编号 25 幻灯片编号 26 幻灯片编号 27 幻灯片编号 28 幻灯片编号 29 幻灯片编号 30 幻灯片编号 31 幻灯片编号 32 幻灯片编号 33 幻灯片编号 34 幻灯片编号 35 幻灯片编号 36 幻灯片编号 37 幻灯片编号 38 幻灯片编号 39
/
本文档为【语音信号处理2】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
热门搜索

历史搜索

    清空历史搜索