为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

语音信号处理3

2016-12-18 50页 pdf 2MB 564阅读

用户头像

is_392846

暂无简介

举报
语音信号处理3 1 3.1概述 3.2语音信号的数字化和预处理 3.3语音信号的时域分析 3.4语音信号的频域分析 3.5语音信号的倒谱分析 3.6现代通信中的线性预测分析 3.7基音周期估计 3.8共振峰估计 2 3.1 概述 ™ 语音信号分析 语音信号处理的前提和基础,只有分析出可 表示语音信号特征的参数,才有可能利用这些参数进行高效 的语音通信、语音合成和语音识别等处理。 ™ 贯穿于语音分析全过程的是“短时分析技术” 语音信号从整体来看其特征及表征其本质特征的参数均 是随时间而变化的,所以它是...
语音信号处理3
1 3.1概述 3.2语音信号的数字化和预处理 3.3语音信号的时域分析 3.4语音信号的频域分析 3.5语音信号的倒谱分析 3.6现代通信中的线性预测分析 3.7基音周期估计 3.8共振峰估计 2 3.1 概述 ™ 语音信号分析 语音信号处理的前提和基础,只有分析出可 表示语音信号特征的参数,才有可能利用这些参数进行高效 的语音通信、语音合成和语音识别等处理。 ™ 贯穿于语音分析全过程的是“短时分析技术” 语音信号从整体来看其特征及表征其本质特征的参数均 是随时间而变化的,所以它是一个非平衡态过程,不能用处 理平衡信号的数字信号处理技术对其进行分析处理。 但是在一个短时间范围内(一般认为在10-30ms的短时 间内),其特性基本保持不变即相对稳定,因而可以将其看 作是一个准稳态过程,即语音信号具有短时平稳性。 3 3.1 概述 ™ 根据所分析出的参数的性质的不同可以分为: 时域分析、频域分析、倒频域分析,线性预测分析等; ™ 分析方法的不同: 模型分析方法和非模型分析方法 ™ 不论是分析怎么样的参数以及采用什么分析方法,在按帧进 行语音分析,提取语音参数之前,有一些经常使用的、共同 的短时分析技术必须预先进行,如语音信号的数字化、语音 信号的预加重、加窗和分帧等,这些也是不可忽视的语音信 号分析的关键技术。 3.2 语音信号的数字化和预处理 ™ 语音信号的数字化一般包括放大及增益控制、反混叠滤波、 采样、A/D变换及编码(一般就是PCM码); ™ 预处理一般包括预加重、加窗和分帧等。 带通滤 波器 自动增益控 制(AGC) 模 / 数转换 (A/D) 脉冲编码 调制(PCM) 语音信号 存入计算机 5 3.2.1 语音信号的数字化 一、预滤波 ™ 抑制输入信号各频域分量中频率超出fs/2的所有分量(fs) 为采样频率,以防止混叠干扰。 ™ 抑制50Hz的电源工频干扰。 ™ 这样,预滤波器必须是一个带通滤波器,设其上、下截止频 率分别是fH和fL: 绝大多数语音编译码器: fH =3400Hz,fL =60-100Hz,fS =8kHz 6 二、采样、量化和脉冲编码调制 ™ 采样:时间离散;量化:幅值离散;编码:二进制码 ™ A/D变换器实现 ™ A/D变换中要对信号进行量化,量化不可避免地会产生误 差。量化后的信号值与原信号值之间的差值称为量化误 差,又称为量化噪声。 ™ 量化噪声特点: 若信号波形的变化足够大,或量化间隔Δ足够小 时,可以证明量化噪声符合具有下列特征的统计模型: ①它是平稳的白噪声过程 ②量化噪声与输入信号不相关 ③量化噪声在量化间隔内均匀分布,即具有等概率密 度分布 3.2.1 语音信号的数字化 7 ™ 若用σx2表示输入语音信号的方差,2Xmax表示信号的峰值,B表 示量化字长, σe2表示噪声序列的方差,可以证明量化信噪比 SNR(信号与量化噪声的功率比)为: ™ 假设语音信号的幅度符合Laplacian分布,此时信号幅度超过 4σx的概率很小,只有0.35%,因而可取Xmax=4σx,则 ™ 上式表明量化器中的每bit字长对SNR的贡献为6dB。 ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛−+=⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛= xe x XBdBSNR σσ σ max 2 2 lg2077.402.6lg10)( 2.702.6)( −= BdBSNR 3.2.1 语音信号的数字化 8 一、预加重 ™ 由于语音信号的平均功率谱受声门激励和口鼻辐射影 响,高频端大约在800Hz以上按6dB/倍频程跌落,非平 坦的,要在预处理中进行预加重(Pre-emphasis)处理。 ™ 预加重的目的是提升高频部分,使信号的频谱变得平 坦,以便于频谱分析或声道参数分析。 ™ 预加重可以在数字化之前,也可之后; 若在数字化之后,一般用一阶的数字滤波器 3.2.2 语音信号的预处理 11)( −−= zZH μ 9 二、分帧处理 ™ 加窗分帧处理。一般每秒的帧数约为33-100帧,视实际情 况而定。分帧虽然可以采用连续分段的方法,但一般要采 用的交叠分段的方法,这是为了使帧与帧之间平滑过渡, 保持其连续性。前一帧和后一帧的交叠部分称为帧移。帧 移与帧长的比值一般取为0-1/2。 3.2.2 语音信号的预处理 10 ™ 分帧是用可移动的有限长度窗口进行加权的方法来实现 的,即用一定的窗函数ω(n)来乘s(n),从而形成加窗 语音信号sω(n)=s(n)* ω(n)。 ™ 在语音信号数字处理中常用的窗函数是矩形窗和汉明窗 等,它们的表达式如下(其中N为帧长): 1)矩形窗: 2)汉明(Hamming)窗: ⎩⎨ ⎧ = −≤≤= elsen Nn n ,0 )1(0,1 )(ω ⎩⎨ ⎧ = −≤≤−−= elsen NnNn n ,0 )1(0)],1/(2cos[46.054.0 )( πω 3.2.2 语音信号的预处理 11 ™ 窗口形状和长度的选择,对短时分析参数的影响很大。 1)窗口的形状 虽然,不同的短时分析方法(时域、频域、倒频域分析)以及 求取不同的语音特征参数可能对窗函数的要求不尽一样,但 一般来讲,一个好的窗函数的是:在时域因为是语音波 形乘以窗函数,所以要减小时间窗两端的坡度,使窗口边缘 两端不引起急剧变化而平滑过渡到零,这样可以使截取出的 语音波形缓慢降为零,减小语音帧的截断效应;在频域要有 较宽的3dB带宽以及较小的边带最大值。这里只以典型的矩 形窗和汉明窗为例进行比较,其他窗口可参阅FIR数字滤波 器或谱分析的有关书籍。 3.2.2 语音信号的预处理 12 矩形窗与汉明窗的比较 窗类型 旁瓣峰值 主瓣宽度 最小阻带衰减 矩形窗 -13 4π/N -21 汉明窗 -41 8π/N -53 汉明窗的主瓣宽度比矩形窗大一倍,即带宽约增加一 倍,同时其带外衰减也比矩形窗大一倍多。矩形窗的谱平 滑性能较好,但损失了高频成分,使波形细节丢失;而汉 明窗则相反,从这一方面来看,汉明窗比矩形窗更为合适。 因此,对语音信号的短时分析来说,窗口的形状是至关重 要的。例如,选用不同的窗口将使时域分析参数的短时平 均能量的平均结果不同。 3.2.2 语音信号的预处理 13 2)窗口的长度 ¾ 采样周期Ts=1/fs,窗口长度N和频率分辨率Δf之间存在下列 关系: Δf=1/NTs 可见,采样周期一定时,Δf随窗口宽度N的增加而减小,即 频率分辨率相应得到提高,但同时时间分辨率降低;如果窗 口取短,频率分辨率下降,而时间分辨率提高,因而二者是 矛盾的。应该根据不同的需要选择合适的窗口长度。 3.2.2 语音信号的预处理 14 ¾ 窗口长度的选择,更重要的是要考虑语音信号的基音周期。 通常认为在一个语音帧内应包含1~7个基音周期。然而不 同人的基音周期变化很大,从女性和儿童的2ms到老年男子 的14ms(即基音频率的变化范围为500~70Hz),所以N的选 择比较困难。通常在10kHz取样频率下,N折中选择为100~ 200点为宜(即10~20ms持续时间)。 ™ 经过上面介绍的处理过程,语音信号被分割成一帧一帧的 加过窗函数的短时信号,然后再把每一个短时语音帧看成 平稳的随机信号,利用数字信号处理技术来提取语音特征 参数。在进行处理时,按帧从数据区中取出数据,处理完 成后再取下一帧,等等,最后得到由每一帧参数组成的语 音特征参数的时间序列。 3.2.2 语音信号的预处理 15 3.3 语音信号的时域分析 ™ 语音信号的时域分析就是分析和提取语音信号的时域 参数。语音信号本身就是时域信号,因而时域分析是 最早使用,也是应用最广泛的一种分析方法,这种方 法直接利用语音信号的时域波形。 ™ 时域分析通常用于最基本的参数分析及应用,如语音 的分割、预处理、大分类等。 ™ 特点:①表示语音信号比较直观、物理意义明确。 ②实现起来比较简单、运算量少。 ③可以得到语音的一些重要的参数。 ④可使用示波器等通用设备,使用较为简单等。 16 ™ 设语音波形时域信号为x(t)、加窗分帧处理后得到的第n帧 语音信号为xn(m),则xn(m)满足下式: xn (m)=ω(m)x(n+m) 其中,n=0,1T,2T,…, T为帧移长度,N为帧长。 ™ 设第n帧语音信号xn(m)的短时能量用En表示,则其计算公式 如下: ⎩⎨ ⎧ = −== 其它值m Nm m ,0 )1(~0,1 )(ω ∑− = = 1 0 2 )( N m nn mxE 3.3.1 短时能量及短时平均幅度分析 17 3.3.1 短时能量及短时平均幅度分析 18 ™ En是一个度量语音信号幅度值变化的函数,但它有一个缺 陷,即它对高电平非常敏感(因为它计算时用的是信号的平 方)。为此,可采用另一个度量语音信号幅度值变化的函 数,即短时平均幅度函数Mn,定义为: ™ Mn也是一帧语音信号能量大小的表征,它与En的区别在于计 算时小取样值和大取样值不会因取平方而造成较大差异。 ™ 用途: 1)区分浊音段和清音段; 2)区分声母韵母分界,无声有声分界等; ∑− = = 1 0 )( N m nn mxM 3.3.1 短时能量及短时平均幅度分析 19 ™ 短时过零率表示一帧语音中语音信号波形穿过横轴(零电平) 的次数。过零分析是语音时域分析中最简单的一种。对于连 续语音信号,过零即意味着时域波形通过时间轴;而对于离 散信号,如果相邻的取样值改变符号则称为过零。过零率就 是样本改变符号的次数。 ™ 定义语音信号xn(m)的短时过零率Zn为: 式中,sgn[]是符号函数,即 ∑− = −−= 1 0 )]1(sgn[)](sgn[ 2 1 N m nnn mxmxZ ⎩⎨ ⎧ <− ≥= )0(,1 )0(,1 ]sgn[ x x x 3.3.2 短时过零率分析 20 ™ 用途: 1)从背景噪声中找出语音信号; 2)可用于判断寂静无声段和有声段的起点和终点位置; 3)语音分割:在孤立词的语音识别中,必须要在一连串连 续的语音信号中进行适当分割,用以确定一个一个单词的 语音信号,即找出每一个单词的开始和终止位置。 3.3.2 短时过零率分析 21 ™ 短时能量、短时平均幅度和 短时过零率都是随机参数, 对不同性质的语音具有不同 的概律分布。 S — 无声 U — 清音 V — 浊音 22 ™ 相关分析是一种常用的时域波形分析方法,并有自相关 和互相关之分。 对确定性信号 ™ 自相关函数具有一些性质,如它是偶函数;假设序列具 有周期性,则其自相关函数也是同周期的周期函数等。 ™ 在语音信号分析中,分析的是短时自相关函数。 ™ 用途: 对浊音语音可以用自相关函数求出语音波形序列的基 音周期。 在进行语信号的线性预测分析时,也要用到自相关函 数。 3.3.3 短时相关分析 ∑∞ −∞= += m n kmxmxkR )()()( 23 1.短时自相关函数 ™ 定义语音信号xn(m)的短时自相关函数Rn(k)的计算式如下: K是最大的延迟点数。 ™ 短时自相关函数性质: (1)如果xn (m)是周期的(设周期为Np ),则自相关函数是同周 期的周期函数,即Rn (k)=Rn (k+Np )。 (2)Rn (k)是偶函数,即Rn (k)=Rn (-k)。 (3)当k=0时,自相关函数具有最大值,即Rn (0)≥|Rn (k)|, 并且Rn (0)等于确定性信号序列的能量或随机性序列的平均 功率。 KkkmxmxkR kN m nnn ≤<+= ∑−− = 0 ,)()()( 1 0 3.3.3 短时相关分析 24 例子:3个自相关函数, N=401 K=250 fs =8KHz 浊音的周期 清音自相关函数 KkkmxmxkR kN m nnn ≤<+= ∑−− = 0 ,)()()( 1 0 3.3.3 短时相关分析 25 2.修正的短时自相关函数 ™ 存在的问题 26 2.修正的短时自相关函数 ™ 修正的短时自相关函数是用两个长度不同的窗口,截取两个 不等长的序列进行乘积和,两个窗口的长度相差最大的延迟 点数K。这样就能始终保持乘积和的项数不变,即始终为短 窗的长度。修正的短时自相关函数定义为: 其中, KkkmxmxkR N m nnn ≤≤+= ∑− = 0,)(')()( 1 0 ⎩⎨ ⎧ = −== 其它值m Nm m ,0 )1(~0,1 )(ω ( ) ( ) ( ),(0 1)nx m m x n m m Nω= + ≤ ≤ − )10(),()(')(' KNkmnxmmx n +−≤≤+=ω ⎩⎨ ⎧ = +−== 其它值m KNm m ,0 )1(~0,1 )('ω 27 2.修正的短时自相关函数 修正的短时自相关 函数具有互相关函 数的特征; 在周期信号的倍数 上有峰值。 28 ™ 短时自相关函数是语音信号时域分析的重要参量。但 是,计算自相关函数的运算量很大,其原因是乘法运算 所需要的时间较长。利用快速傅里叶变换(FFT)等简化 计算方法都无法避免乘法运算。为了避免乘法,一个简 单的方法就是利用差值。为此采用另一种与自相关函数 有类似作用的参量,即短时平均幅度差函数(AMDF)。 ™ 平均幅度差函数能够代替自相关函数进行语音分析,是 基于这样一个事实:如果信号是完全的周期信号(设周 期为Np),则相距为周期的整数倍的样点上的幅值是相等 的,差值为零。 3.3.4 短时平均幅度差函数 ,...)2,,0(,0)()()( pp NNkknxnxnd ±±==+−= 29 ™ 对于实际的语音信号,d(n)虽不为零,但其值很小。这 些极小值将出现在整数倍周期的位置上。为此,可定义 短时平均幅度差函数: ™ 可以证明平均幅度差函数和自相关函数有密切的关系, 两者之间的关系可由下式表达: ∑−− = +−= kN m nnn kmxmxkF 1 0 )()()( 2/1)]()0()[(2)( kRRkkF nnn −= β 3.3.4 短时平均幅度差函数 30 3.3.4 短时平均幅度差函数 31 3.4 语音信号的频域分析 ™ 语音信号的频域分析就是分析语音信号的频域特征。从 广义上讲,语音信号的频域分析包括语音信号的频谱、 功率谱、倒频谱、频谱包络分析等,而常用的频域分析 方法有带通滤波器组法、傅里叶变换法、线性预测法等 几种。本节介绍的是语音信号的傅里叶分析法。因为语 音波是一个非平稳过程,因此适用于周期、瞬变或平稳 随机信号的标准傅里叶变换不能用来直接表示语音信 号,而应该用短时傅里叶变换对语音信号的频谱进行分 析,相应的频谱称为“短时谱”。 32 ™ 对第n帧语音信号xn(m)进行傅里叶变换(离散时域傅里叶变 换,DTFT),可得到短时傅里叶变换,其定义如下: ™ 由定义可知,短时傅里叶变换实际就是窗选语音信号的标准 傅里叶变换。这里,窗ω(n)是一个“滑动的”窗口,它随n 的变化而沿着序列x(m)滑动。由于窗口是有限长度的,满足 绝对可和条件,所以这个变换是存在的。当然窗口函数不 同,傅里叶变换的结果也将不同。 ∑− = −= 1 0 )()( N m mj n j n emxeX ωω 3.4.1 短时傅里叶变换 33 ™ 可以将上式写成另一种形式。设语音信号序列和窗口序列的 标准傅里叶变换均存在。当n取固定值时,ω(n-m)的傅里叶 变换为: ™ 根据卷积定理有: ™ 因为上式右边两个卷积项均为关于角频率ω的以2π为周期 的连续函数,所以也可将其写成以下的卷积积分形式: 假设x(m)的DTFT是X(ejω),且ω(m)的DTFT是W(ejω),那么 Xn (ejω)是X(ejω)和W(ejω)的周期卷积。 )()( ωωωω jnj m mj eWeemn −− ∞ −∞= − ⋅=−∑ )]([*)()( ωωωω jnjjjn eWeeXeX −− ⋅= ∫− +− ⋅= ππ θωθθω θdeXeeWeX jjnjjn )]([])([21)( )( 34 ™ 在语音信号数字处理中,功率谱具有重要意义,在一些语音 应用系统中,往往都是利用语音信号的功率谱。根据功率谱 定义,可以写出短时功率谱与短时傅里叶变换之间的关系: ™ 或者: 式中*表示复共轭运算。并且功率谱Sn (ejω)是短时自相关函 数Rn (k)的傅里叶变换。 2* )()()()( ωωωω jn j n j n j n eXeXeXeS =⋅= 2* )()()()( kXkXkXkS nnnn =⋅= ∑− +−= −== 1 1 2 )()()( N Nk kj n j n j n ekReXeS ωωω 35 3.5 语音信号的倒谱分析 ™ 语音信号的倒谱分析就是求取语音倒谱特征参数的 过程. ™ 求取倒谱特征参数的方法有两种: 线性预测分析 同态分析处理 ™ 同态信号处理也称为同态滤波,它实现了将卷积关 系变换为求和关系的分离处理,即解卷。 ™ 对语音信号进行解卷,可将语音信号的声门激励信 息及声道响应信息分离开来,从而求得声道共振特 征和基音周期,用于语音编码、合成、识别等。 36 ™ 日常生活中遇到的许多信号,它们并不是加性信号(即 组成各分量按加法原则组合起来)而是乘积性信号或卷 积性信号,如语音信号、图像信号、通信中的衰落信号、 调制信号等。这些信号要用非线性系统来处理。 ™ 同态信号处理就是将非线性问题转化为线性问题的处理 方法。 ™ 按被处理的信号来分类,大体分为乘积同态处理和卷积 同态处理两种。由于语音信号可视为声门激励信号和声 道冲击响应的卷积,所以这里仅讨论卷积同态信号处理。 3.5.1 同态信号处理的基本原理 37 ™ 卷积同态系统的模型,该系统的输人卷积信号经过系统 变换后输出的是一个处理过的卷积信号。 ™ 同态系统可分解为三个子系统: 两个特征子系统(它们只取决于信号的组合规则)和一个 线性子系统(它仅取决于处理的要求)。 符号*、+和·分别表示卷积、加法和乘法运算。 3.5.1 同态信号处理的基本原理 38 ™ 第一个子系统,它完成将卷积性信号转化为加性信号的运 算;第二个子系统是一个普通线性系统,满足线性叠加原 理,用于对加性信号进行线性变换;第三个子系统是第一 个子系统的逆变换,它将加性信号反变换为卷积性信号. 3.5.1 同态信号处理的基本原理 39 ™ 第一个子系统D*[ ]完成将卷积性信号转化为加性信 号的运算,即对于信号x(n)=xl(n)*x2(n)进行了如下运 算处理: )()()()]([)1( 21 zXzXzXnxZ ⋅== )(ˆ)(ˆ)(ˆ)(ln)(ln)(ln)2( 2121 zXzXzXzXzXzX =+=+= )(ˆ)(ˆ)(ˆ)](ˆ)(ˆ[)](ˆ[)3( 2121 11 nxnxnxzXzXZzXZ =+=+= −−{ 3.5.1 同态信号处理的基本原理 40 ™ 由于x^(n)为加性信号,所以第二个子系统可对其进行需 要的线性处理得到y^(n)。 ™ 第三个子系统是逆特征系统D*-1[ ],它对y^(n)= y1^(n)+y2^(n)进行逆变换,使其恢复为卷积性信号, 即进行了如下处理: ™ 从而得到卷积性的恢复信号。 ˆ ˆ ˆ( ) [ ( )] ( ) ( ) ( )ˆZ y n Y z Y z Y z= = +1 21 )()()()(ˆexp)2( 21 zYzYzYzY ⋅== )(*)()]()([)()3( 2121 1 nynyzYzYZny =⋅= −{ 3.5.1 同态信号处理的基本原理 41 ™ 虽然D*[ ]与D*-1[ ]系统中的x^(n)和y^(n)信号也均 是时域序列,但它们所处的离散时域显然不同于x(n) 和y(n)所处的离散时域,所以把它称之为“复倒频谱 域”。 x^(n)是x(n)的“复倒频谱”,简称为“复倒 谱”,其英文原文为“Complex Cepstrum”, Cepstrum是一个新造的英文词,它是由Spectrum这个 词的前四个字母倒置而构成的。同样,序列y^(n)也是 y(n)的复倒谱。 3.5.2 复倒谱和倒谱 42 ™ 在绝大多数数字信号处理中,X(z),X^(z),Y(z),Y^(z)的 收敛域均包含单位圆,因而D*[ ]与D*-1[ ]系统有如下形 式: ™ D*[ ]= ™ D*-1[ ]= [ ( )] ( )jF x n X e ω={ )](ln[)(ˆ ωω jj eXeX = )](ˆ[)(ˆ 1 ωjeXFnx −= { )](ˆ[)(ˆ nyFeY j =ω )](ˆexp[)( ωω jj eYeY = )]([)( 1 ωjeYFny −= 3.5.2 复倒谱和倒谱 43 ™ 设: 则取其对数得: ™ 即复数的对数仍是复数,它包含实部和虚部。 若只考虑X^(ejω)的实部,令: 显然c(n)是序列x(n)对数幅度谱的傅里叶逆变换。 c(n)称为“倒频谱”或简称为“倒谱”, 英文原文 “Quefrency”,因此也称为“倒频”。 ™ c(n)实际上就是要求取的语音信号倒谱特征。 )](arg[)(ln)(ˆ ωωω jjj eXjeXeX += )](arg[)()( ωωω jeXjjj eeXeX = ])([ln)( 1 ωjeXFnc −= 44 ™ 复倒谱和倒谱特点和关系。 (1)复倒谱要进行复对数运算,而倒谱只进行实对数 运算。 (2)在倒谱情况下一个序列经过正逆两个特征系统变 换后,不能还原成自身,因为在计算倒谱的过程中 将序列的相位信息丢失了。 (3)与复倒谱类似,如果c1 (n)和c2 (n)分别是x1 (n)和 x2 (n)的倒谱,并且x(n)= x1 (n)*x2 (n),则x(n)的倒 谱c(n)= c1 (n)+c2 (n) 。 (4)已知一个实数序列x(n)的复倒谱x^(n),可以由 x^(n)求出它的倒谱c(n)。 (5)已知一个实数序列x(n)的倒谱c(n),能否用它来 求出复倒谱x^(n)? 45 语音信号:声门激励信号和声道冲激响应两信号的卷积. 1.声门激励信号 ™ 发清音时,声门激励是能量较小,频谱均匀分布的白噪 声; 发浊音时,声门激励是以基音为周期的冲激序列: 其中,M、r均为正整数,且0≤r≤M,αr 为幅度因子, Np为用样点数表示的基音周期。 3.5.3 语音信号两个卷积分量的复倒谱 ∑ = −= M r pr rNnnx 0 )()( δα 46 ™ 计算 的复倒谱 其中 ,通常 ∑∑ ∞ = ∞ = −=−+= 01 0 )()()(ln)(ˆ k pk k pk kNnkNnnnx δβδβδα )(nx 0/ aaa rr = 1<ra 47 ™ 结论: 一个有限长度的周期冲激序列,其复倒谱也是一个 周期冲激序列,且周期不变,只是序列变为无限长 序列。 振幅随着k的增大而衰减,衰减速度比原序列要快。 ™ 把这种性质应用于语音信号分析中,就意味着除原 点外,可以用“高时窗”从语音信号的频谱中提取 浊音激励信号的倒谱,从而提取出基音信号。 ∑∞ = −= 0 )()(ˆ k pk kNnnx δβ 48 2.声道冲激响应序列 ™ 如果用最严格(也是最普遍的)极零点模型来描述声道响 应x(n),则有: ™ 求对数可得: ™ 求逆变换: ∏∏ ∏∏ == − == − −− −− = 0 0 11 1 11 1 )1()1( )1()1( )( p k k p k k m k k m k k zdzc zbza AzX i i 49 ™ 等价为: ™ 声道响应序列复倒谱的性质 (1)x^(n)是双边序列。 (2)由于|ak |、|bk |、|ck |、|dk |均小于1,所以x^(n)是衰减序列,即 |x^(n)|随|n|的增大而减小。 (3)|x^(n)|随|n|增大而衰减的速度至少比1/|n|快。 (4)如果x(n)是最小相位序列,即bk =0、dk =0,则x^(n)只在n≥0时有 值,且由X^(z)的表达示可知x^(n)是稳定的,即x^(n)为稳定因果 序列。也就是说,最小相位信号序列的复倒谱是稳定因果序列。 (5)与(4)相反,最大相位信号序列(极零点均在z平面单位圆外)的复 倒谱是稳定反因果序列。 ⎪⎪ ⎪ ⎩ ⎪⎪ ⎪ ⎨ ⎧ <− >− = = ∑ ∑ ∑ ∑ = = −− = = 0 0 0ln )(ˆ 0 0 1 1 1 1 n n d n b n n a n c nA nx m k p k n k n k p k m k n k n k i i 50 1.由同态分析求出的语音信号倒谱实例 ™ 一个信号的倒谱定义为信号频谱模的自然对数的逆傅 里叶变换(即设相位恒定为零)。设信号为s(n),则其 倒谱为: ™ 根据语音信号产生模型,语音信号s(n)是由声门脉冲 激励e(n)经声道响应v(n)滤波而得到,即: ™ 设三者的倒谱分别为s^(n)、e^(n)及v^(n),则有: ™ 分离出e^(n)和v^(n),求出基音频率。 { })]([ln)(ˆ nsDFTIDFTns = )(*)()( nvnens = )(ˆ)(ˆ)(ˆ nvnens += 3.5.4 语音信号倒谱分析实例 51 ™ 一帧语音信号: 300点,fs=10K ™ 窗函数选择:汉明窗 ™ 用途: 判断清浊音 基音周期 共振峰参数 52 2.MEL频率倒谱参数 ™ MFCC分析着眼于人耳的听觉特性 ™ Mel频率与实际频率的关系: Mel(f)=2595lg(1+f/700) 53 ™ MFCC的计算过程: 1)将信号进行傅里叶变换得到其频谱 2)将实际频率尺度转换为Mel 频率尺度 3)在Mel频率轴上配置三角形滤波器组 4) 根据语音信号的幅度谱求 每个三角形滤波器的输出 5)对三角窗滤波器组的输出 求取对数,可以得到近似 于同态变换的结果 6)进行傅里叶逆变换即可得到MFCC 离散余弦变换 54 3.6 语音信号的线性预测分析 ™ 线性预测分析的基本思想: 由于语音样点之间存在相关性,所以可以用过去的 样点值来预测现在或未来的样点值,即一个语音的 抽样能够用过去若干个语音抽样或它们的线性组合 来逼近。 通过使实际语音抽样和线性预测之间的误差在某个 准则下达到最小值来决定唯一的一组预测系数。 这组预测系数就反映了语音信号的特性,可以作为 语音信号特征参数用于语音识别、语音合成等。 55 ™ 线性预测分析的基本思想: ¾ 用过去p个样点值来预测现在或未来的样点值: ¾ 预测误差ε(n)为: ¾ 可以通过在某个准则下使预测误差ε(n)达到最小值 的方法来决定惟一的一组线性预测系数ai(i=1, 2,…,p)。 ∑ = −= p i i insans 1 )()(ˆ ∑ = −−=−= p i i insansnsnsn 1 )()()(ˆ)()(ε 3.6.1 线性预测分析的基本原理 56 ™ 考虑语音信号产生模型 ¾ 系统的输入e(n)是语音激励,s(n)是输出语音,模型 的系统函数H(z)可以写成有理分式的形式: ¾ 采用全极点模型,辐射、声道以及声门激励的组合谱 效应的传输函数为: ¾ 差分方程: ∑ ∑ = − = − − + ⋅= p i i i q l l l za zb GzH 1 1 1 1 )( )(1)( )()( 1 zA G za G zE zSzH p i i i = − == ∑ = − 3.6.1 线性预测分析的基本原理 ∑ = −+= p i i insanGens 1 )()()( 57 ¾ 在模型参数估计中,把如下系统称为线性预测器: 式中ai 称为线性预测系数。p阶线性预测器的系统函数具 有如下形式: ¾ 预测误差为: ¾ 线性预测分析要解决的问题是: 给定语音序列(LPC分析必须按帧进行),使预测误差在 某个准则下最小,求预测系数的最佳估值ai ,这个准则 通常采用最小均方误差准则。 ∑ = −= p i i insans 1 )()(ˆ ∑ = −= p i i i zazP 1 )( )()()()( 1 nGeinsansn p i i =−−= ∑ = ε 58 ™ 线性预测方程 把某一帧内的短时平均预测误差定义为: ¾ 为使E{ε2(n)}最小,对aj求偏导,并令其为零,有: 表明采用最佳预测系数时,预测误差ε(n)与过去的语 音样点正交。 ¾ 对于一帧从n时刻开窗选取的N个样点的语音段Sn,记 Φn(j,i)为 ¾ 则有: ¾ 最小预测误差: { } ⎭⎬ ⎫ ⎩⎨ ⎧ −−== ∑ = 2 1 2 ])()([)( p i i insansEnE εσ ε pjjija n p i ni ,...,1),0,(),( 1 =Φ=Φ∑ = pjjnsinsansE p i i ,...,1,0)(])()([ 1 == ⎭⎬ ⎫ ⎩⎨ ⎧ −−− ∑ = )}()({),( imsjmsEij nnn −−=Φ ∑ = Φ−Φ= P i nin ia 1 ),0()0,0(εσ 59 ™ 对于语音段Sn,它的自相关函数为: ™ 比较 ™ 可以定义Φn(j,i)为 ™ 因此有: pjjmsmsjR N jm n ,...,1,)()()( 1 =−= ∑− = |)(||)|()(),( ||1 0 jiRjimsmsij n jiN m nnn −=−+=Φ ∑−−− = )(|)(| 1 jRjiRa n p i ni =−∑ = 3.6.2 线性预测方程组的求解 )}()({),( imsjmsEij nnn −−=Φ 60 ™ 把上式展开写成矩阵形式: 方程称Yule-Wslker方程,方程左边的矩阵称为托普利 兹(Toeplitz)矩阵,它是以主对角线对称的、而且其沿 着主对角线平行方向的各轴向的元素值都相等。 这种Yule-Wslker方程可用莱文逊-杜宾(Levinson— Durbin)递推算法来高效地求解。 ⎥⎥ ⎥⎥ ⎦ ⎤ ⎢⎢ ⎢⎢ ⎣ ⎡ = ⎥⎥ ⎥⎥ ⎥ ⎦ ⎤ ⎢⎢ ⎢⎢ ⎢ ⎣ ⎡ ⎥⎥ ⎥⎥ ⎦ ⎤ ⎢⎢ ⎢⎢ ⎣ ⎡ −− − − )( )2( )1( )0()2()1( )2()0()1( )1()1()0( 2 1 pR R R a a a RpRpR pRRR pRRR n n n pnnn nnn nnn ## " #%## " " 61 ™ 莱文逊-杜宾递推算法 if i<p go to (1) )0()1( 0 nn RE = ∑− = −− −−= 1 1 1 /)]()([)2( i j ji nn i jni EjiRaiRk i i i ka =)3( 11,)4( 11 −≤≤−= −−− ijakaa i jiiijij 12 )1()5( −−= iniin EkE pjaa pjj ≤≤= 1,)6( 62 1.LPC谱估计 ™ 当求出一组预测器系数后,就可以得到语音产生模型 的频率响应,即: ™ 其频率响应H(ejω)即称为LPC谱。 ™ 共振峰频率上其频率响应特性会出现峰值。所以线性 预测分析法又可以看做是一种短时谱估计法。 )(1 )( 01 ωωω ω jp i ij i p i ij i j eA G ea G ea GeH == − = ∑∑ = − = − 3.6.3 LPC谱估计和LPC复倒谱 63 ™ LPC谱特点: 在信号能量较大的区域即接近谱的峰值处,LPC谱和 信号谱很接近;而在信号能量较低的区域即接近谱 的谷底处,则相差比较大。 ™ P的选取 如果p选得很大,误差小,而且极零模型也可以用全 极点模型来代替,但却增加了计算量和存储量,且p 增加到一定程度以后,预测平方误差的改善就很不 明显了, 在语音信号处理中,p一般选在8~14之间。 64 2.LPC复倒谱 ™ LPC系数是线性预测分析的基本参数。LPC系数可以表示整 个LPC系统冲激响应的复倒谱。 设通过线性预测得到的系统函数为: 冲激响应 ,设 是 复倒谱,有 代入并将其两边对 求导 1 1( ) 1 p i i i H z a z − = = + ∑ )(nh )(nh)(ˆ nh ∑∞ = −== 1 )(ˆ)(ln)(ˆ n nznhzHzH 1−z 65 得到: 令左右两端的常数项和 的各次幂的系数相等,有 按上式求得的复倒谱h^(n)称之为LPC复倒谱。 0)0(ˆ =h 1)1(ˆ ah −= )(,)(ˆ)/1()(ˆ 1 pnknhanknh p k k >−−−= ∑ = )1(,)(ˆ)/1()(ˆ 1 1 pnknhankanh n k kn ≤≤−−−−= ∑− = 1−z 66 ™ LPC复倒谱特性 ¾ 由于利用了线性预测中声道系统函数H(z)的最小相 位特性,避免了相位卷绕问题; ¾ LPC复倒谱的运算量小,它仅是用FFT求复倒谱时运 算量的一半; ¾ 因为当p→∞时,语音信号的短时复频谱S(ejω)满 足|S(ejω)|= |H(ejω)|,因而可以认为h^(n)包含了 语音信号频谱包络信息,即可近似把h^(n)当作s(n) 的短时复倒谱s^(n)。 ™ 用途: 估计出语音短时谱包络和声门激励参数。在实时语 音识别中也经常采用LPC复倒谱作为特征矢量。 67 ™ 线谱对分析也是一种线性预测分析方法,只是它求 解的模型参数是“线谱对”(Line Spectrum Pair, 简称为LSP),它是频域参数。 ™ 因而和语音信号谱包络的峰有着更紧密的联系;同 时它构成合成滤波器H(z)时容易保证其稳定性,合 成语音的数码率也比用格型法求解时要低。 ™ 线谱对参数 ,可通过系统线性预测系数{ai} 求出。 3.6.4 线谱对分析 ii θω , 68 3.7 语音信号的小波分析 小波变换 80 年代以来迅速发展起来的一门新兴科学。 虽然数学上它可追溯到(Joseph Fourier)傅立叶的频率分析, 它是小波理论的基础。Haar 于 1909 年在论文中第一个提出“小 波”名词,他提出 Haar 小波基。Morlet 于 1984 年以理论形式 提出小波概念。Meyer 开发出许多方法用作小波分析。小波已 成为数学家的领域,仅在最近时期它才被用到信号和图象处 理。主要推动小波理论的发展和普及来源于 Daubechie 和 Mallat 的工作。 69 3.7.1 傅里叶变换 ™ 回顾: 可以清楚的了解 到信号的频率成分, 但不能确定某个频 率成分发生的时间 t 70 把信号划分成许多小的时间间隔,用傅立叶变换分析 每个时间间隔,以便确定该时间间隔存在的频率 短时傅立叶变换: ∫ +∞∞− Ω−−=Ω dtetgtfF tj)()(),( ττ , , : ( ) ( ) ( )* ( ) ( ) ( ) ( , ) ( ), ( ) ( ) ( ) j t j t STFT f t g t F G f t g t e dt STFT g t f t g t g t e τ τ τ τ τ +∞ − Ω −∞ Ω − Ω Ω ↔ Ω Ω = − Ω = = − ∫ 3.7.2 短时傅里叶变换 71 。率时-频平面表示的分辨 cellSTFT 03Ω τσ2 Ωσ2 0Ω 1τ 2τ t STFT固定时间窗 g(t)带来固定的频率分 辨率。这是不定原理结 论,对于任一变换 对 2 1 )()( ≥ Ω↔ Ωσσ T Gtg 72 对所有的频率都使用相同的窗,那么,如果窗 小了不利于低频成分分析,窗大了又不利于高频成 分。 如果能写出这样的窗函数,就可以很好的表示 信号的时间和频率定位, 解决了短时傅立叶变换所 遇到的问题。这里边隐含着小波变换的基本思想。 t 73 ™ 定义: 小波变换的核是由基本小波的 伸缩平移产生的 ™ 用a伸缩小波函数的时间t, 相应的产生频域伸缩, 因此小波变换提供可变的 时-频分辨率。 )()( )()(),( 2/1 , , a btat dtttfbaCWT ba ba −= = − ∞ ∞− ∗∫ ψψ ψ 3.7.3 连续小波变换变换 74 ™ Harr 4 )4(sin)( 0 1211 2101 )( 2 2 ω ωωψψ ωjje otherwise t t t −=↔ ⎪⎩ ⎪⎨ ⎧ <≤− ≤≤ 1 0 1− 5.0 1 t )(tψ )(ωψ ω 20− 010− 10 20 75 1、离散小波变换 离散小波变换将伸缩和平移参数离散化 若令 称为二进小波变换 )(1)(, a bt a tba −= ψψ mm anbbaaa 0000 ,1, =>= 3.7.4 离散小波变换变换 )()(1)( 00 2/ 0 0 00 0 , nbtaaa anbt a t mmm m mnm −=−= −− ψψψ 1 ,2 00 == ba )2(2)( 2/, ntt mm nm −= −− ψψ 76 2 Mallat 算法 1988年,Mallat 基于多分辨率分析的框架,建立了小 波的快速算法。 分解: 重构 过程: 3.7.4 离散小波变换变换 77 Noissin信号 的周期性判别 )(1)(, a bt a tba −= ψψ ∫+∞∞−== dtttfbaWbaCWT baf )()(),(),( *,ψ )()( 2 RLtf ∈Rb∈ 3.7.5 小波变换的例子 78 音基音检测 )(1)(, a bt a tba −= ψψ )()( 2 RLtf ∈Rb∈ 3.7.5 小波变换的例子 79 3.8 基音周期估计 ™ 基音是指发浊音时声带振动所引起的周期性,而 基音周期是指声带振动频率的倒数。基音周期是 语音信号最重要的参数之一,它描述了语音激励 源的一个重要特征。 ™ 应用 语音识别、说话人识别、语音分析与综合以及低 码率语音编码、发音系统疾病诊断、听觉残障者 的语言指导等。 80 ™ 基音检测的
/
本文档为【语音信号处理3】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索