为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > 数字语音信号处理

数字语音信号处理

2011-06-13 50页 doc 1MB 103阅读

用户头像

is_082624

暂无简介

举报
数字语音信号处理研究设计型实验指导书 数字语音信号处理 实验指导书 编著 王让定 熊益群 徐国娟 宁波大学信息科学与工程学院 2008年6月 前言 语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。同时,语言也是人与机器之间进行通信的重要工具,它是一种理想的人机通信方式,因而可为信息处理系统建立良好的人机交互环境,进一步推动计算机和其他智能机器的应用,提高社会的信息化程度。 语音信号处理是一门新...
数字语音信号处理
研究设计型实验指导书 数字语音信号处理 实验指导书 编著 王让定 熊益群 徐国娟 宁波大学信息科学与工程学院 2008年6月 前言 语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。同时,语言也是人与机器之间进行通信的重要工具,它是一种理想的人机通信方式,因而可为信息处理系统建立良好的人机交互环境,进一步推动计算机和其他智能机器的应用,提高社会的信息化程度。 语音信号处理是一门新兴的学科,同时又是综合性的多学科领域和涉及面很广的交叉学科。虽然从事这一领域研究的人员主要来自信号与信息处理及计算机应用等学科,但是它与语音学、语言学、声学、认知科学、生理学、心理学等许多学科也有非常密切的联系。 20世纪60年代中期形成的一系列数字信号处理的理论和算法,如数字滤波器、快速傅立叶变换(FFT)等是语音信号数字处理的理论和技术基础。随着信息科学技术的飞速发展,语音信号处理取得了重大的进展:进入70年代之后,提出了用于语音信号的信息压缩和特征提取的线性预测技术(LPC),并已成为语音信号处理最强有力的工具,广泛应用于语音信号的、合成及各个应用领域,以及用于输入语音与参考样本之间时间匹配的动态规划;80年代初一种新的基于聚类分析的高效数据压缩技术—矢量量化(VQ)应用于语音信号处理中;而用隐马尔可夫模型(HMM)描述语音信号过程的产生是80年代语音信号处理技术的重大发展,目前HMM已构成了现代语音识别研究的重要基石。近年来人工神经网络(ANN)的研究取得了迅速发展,语音信号处理的各项课题是促进其发展的重要动力之一,同时,它的许多成果也体现在有关语音信号处理的各项技术之中。 为了深入理解语音信号数字处理的基础理论、算法原理、研究方法和难点,根据数字语音信号处理教学大纲,结合课程建设的需求,我们编写了本实验参考书。 本本参考书针对教学大纲规定的四个研究设计型实验,每个实验给出了参考程序,目的是起一个抛砖引玉的作用,学生在学习过程中,可以针对某一个实验进行延伸的创新学习,比如说,语音端点的检测、语音共振峰提取、基于HMM或DTW的有限词汇或大词汇的特定人、非特定人的语音识别、识别率的提高(如何提高有噪环境下的识别率)、以及编码问题等,同时在学习中还可深入思考如何将有关的方法在嵌入式系统或DSP下的实现问题等。 第一章 数字语音信号处理教学大纲 一、课程说明 学 分 数:3 总 学 时:59 学时分配:讲课25学时,自主学习17学时,实验17学时 适用专业:电子信息科学与技术,通信工程 先修课程:信号与系统,数字信号处理 二、课程教学的目的与任务 本课程的学习目的是掌握语音信号处理的基本理论、基本分析方法,了解在语音信号处理领域中相关研究热点,激发学习者对语音处理相关研究方向中的有关兴趣,为以后的开展语音处理相关领域的研究、开发打下一个良好的基础。本课程是电子信息科学与技术,通信工程专业的方向模块课。 本门课程的教学分理论和实验教学两部分,理论教学注重培养学生基本问题的分析方法,从而掌握基本的语音信号处理的理论与概念,理论教学还包括多种形式的自主学习,如网上学习、课外阅读、大型作业、主题调查、读书报告、分组讨论等。实验教学注重培养学生的动手能力、分析和解决问题的能力。 三、课程教学的基本内容及学时分配 1. 语音信号处理概述 (理论教学:2学时) 语音信号处理的发展概况,语音信号处理的应用。 2.语音信号的特性及模型 (理论教学:2学时) 语音信号的产生,语音信号的特性,语音信号产生的数字模型,语音感知。 3. 语音信号的时域分析 (理论教学:2学时,自主学习:2学时) 语音信号的数字化和预处理,短时能量分析,短时过零分析,短时相关分析。 4. 语音信号的频域分析 (理论教学:2学时,自主学习:1学时) 短时傅里叶变换,短时傅里叶变换的取样率,语音信号的短时综合,语谱图。 5. 语音信号的同态滤波及倒谱分析 (理论教学:2学时,自主学习:1学时) 同态信号处理的基本原理,复倒谱和倒谱,语音信号两个卷积分量复倒谱的性质,避免相位卷绕的算法,语音信号复倒谱分析实例。 6. 语音信号的LP分析 (理论教学:2学时,自主学习:2学时) 线性预测分析的基本原理,线性预测方程组的建立,线性预测分析的解法,线性预测分析应用,线谱对(LSP)分析,极零模型。 7. 语音信号的矢量量化 (理论教学:2学时,自主学习:1学时) 矢量量化的基本原理,失真测度,最佳矢量量化器和码本的设计,降低复杂度的矢量量化系统,语音参数的矢量量化。 8. 语音编码-波形编码法 (理论教学:2学时,自主学习:1学时) 语音信号的压缩编码原理,脉冲编码调制(PCM)及其自适应,预测编码及其自适应APC,自适应差分脉冲编码调制(ADPCM)及自适应增量调制(ADM),子带编码(SBC),自适应变换编码(ATC)。 9. 语音编码-参数编码法 (理论教学:2学时,自主学习:1学时) 声码器的基本结构,相位声码器和通道声码器,同态声码器, 线性预测声码器,混合编码,各种语音编码方法的比较,语音编码的性能指标和质量评价。 10. 隐马尔可夫模型(HMM) (理论教学:2学时,自主学习:2学时) 隐马尔可夫模型的引入,隐马尔可夫模型的定义,隐马尔可夫模型三项问题的求解,HMM的一些实际问题。 11. 语音识别技术 (理论教学:3学时,自主学习:4学时) 语音识别概述,动态时间规整(DTW)识别技术,隐马尔可夫模型(HMM)识别技术,语音识别的应用技术。 12. 语音合成、语音增强技术 (理论教学:2学时,自主学习:2学时) 语音合成原理,共振峰合成,线性预测合成,专用语音合成硬件及语音合成器芯片,语音增强。 四、教学方法 本课程总学时59(总学分:3);其中课堂讲授:25学时;自主学习:17学时;实验:17学时。 理论课采用课堂教学方式,使用多媒体辅助教学手段,进行基本内容的讲授。适当安排一定的习题课时间,并布置适当的设计题以培养学生的设计、分析问题的能力。 自主学习内容由学生自主学习参考教材的内容,并采用多种渠道,如查阅最新语音信号处理方面的科技文献、资料,作出学习报告。目的是培养学生的自学能力和科技文献的检索和查阅能力,同时可以有助于学生了解和掌握语音信号处理领域的最新技术进展和应用情况,将理论知识和实际应用结合起来,促进学生学习的积极性和主动性。本课程讲授自主学习的内容依每部分的教学进度交替安排。 实验为研究型(设计型)实验,共安排4个实验,为了真正达到研究设计型实验的目的,将自主学习和研究设计型实验结合起来,统一安排。 五、考核及成绩评定方式 本课程的考核内容由下面四部分组成: 1、期末考试M1(100分) 考核内容:教学计划全部内容;考核形式:闭卷考试。占总评成绩的50% 2、实验考核(含自主学习)M2(100分) 四个设计型实验各占25%(分别为M1、M2、M3、M4),评分是按试验分析方法、所设计的实验程序、实验结果等,由任课教师评定成绩 3、及主题报告M3(100分) 按一般科学论文的写作规范的要求,写作4篇专题论文(含自主学习),每一学生选择至少一个写作规范的专题论文进行课堂交流报告,根据论文写作水平、报告的内容、思路、对问题的理解、以及报告方式等评定成绩。 4、平时考核M4(100分) 由任课主讲教师按课堂表现、平时实验、自主学习情况及作业评定成绩。 期末总评成绩M=M1×50%+M2(M2=M1×25%+M2×25%+M3×25%+M4×25%)×10%+M3×30%+M4×10%。 六、教材及参考书目 推荐教材:张雄伟等编著,《现代语音处理技术及应用》,机械工业出版社,2003年。 参考教材: 1、 L.R. Rabiner, B.H. Juang. Fundamentals of Speech Recognition. Prentice Hall, Englewood Cliffs,1993. 清华大学出版社(影印),2002年. 2、 胡航. 语音信号处理(修订版),哈尔滨工业大学出版社,2002年. 3、 易克初,田 斌等. 语音信号处理,国防工业出版社,2000年. 4、 赵 力. 语音信号处理,机械工业出版社,2003年. 5、 吴家安等. 语音编码技术及应用,机械工业出版社,2006年. 6、 韩继庆,张 磊,郑铁然. 语音信号处理,清华大学出版社,2004年. 7、 D.G.Childers. Matlab之语音处理与合成工具箱(影印版),清华大学出版社,2004年. 8、 Thomas F. Quatieri著,赵胜辉等译,《离散时间语音信号处理—原理与应用》,电子工业出版社,2004. 七、实践环节 实验学时数:17 实验学分:0.5 实验项目数:4 1、目的与基本要求 实验为研究型(设计型)实验,共安排4个,为了真正达到研究设计型实验的目的,采用开放实验的办法,将自主学习和研究设计型实验结合起来,统一安排。 通过开放实验,目的使学生进一步理解数字语音信息处理的基本方法,提高学生自主分析、发现及解决问题的能力,锻炼学生论文写作能力,为实际的应用打下扎实的基础。 2、研究设计型实验的内容 1)研究设计型实验1: 基于MATLAB的语音信号时域特征分析 要求: 按所学相关语音处理得的知识,通过网上学习、资料查阅,自己设计程序,给出某一语音信号的短时过零率、短时能量、短时自相关特征的分析结果,并借助时域分析方法检测所分析语音信号的基音周期,写出报告(按一般科学论文的写作规范)。 2)研究设计型实验2: 基于MATLAB分析语音信号频域特征 要求: 按所学相关语音处理的得知识,通过网上学习、资料查阅,自己设计程序,给出某一语音信号的短时谱、倒谱、语谱图的分析结果,并借助频域分析方法检测所分析语音信号的基音周期或共振峰,写出报告(按一般科学论文的写作规范)。 3)研究设计型实验3: 基于MATLAB进行语音信号的LPC分析 要求: 按所学相关语音处理的知识,通过网上学习、资料查阅,自己设计程序,给出某一语音信号的LPC分析结果,包括LPC谱、LPCC谱的分析结果,并借助LPC分析方法检测所分析语音信号的基音周期和共振峰,写出报告(按一般科学论文的写作规范)。 4)研究设计型实验4: 基于VQ的特定人孤立词语音识别研究 要求: 按所学相关语音处理的知识,通过网上学习、资料查阅,借助MATLAB工具,自己设计基于VQ的码本训练程序和识别程序(尽量选用所学HMM或DTW方法设计识别程序),能识别特定人的语音,分析所设计系统的特性,写出报告(按一般科学论文的写作规范)。 第二章 实验 实验一 基于MATLAB的语音信号时域特征分析 一、实验目的 语音信号是一种非平稳的时变信号,它携带着各种信息。在语音编码、语音合成、语音识别和语音增强等语音处理中无一例外需要提取语音中包含的各种信息。语音信号分析的目的就在与方便有效的提取并表示语音信号所携带的信息。语音信号分析可以分为时域和变换域等处理方法,其中时域分析是最简单的方法,直接对语音信号的时域波形进行分析,提取的特征参数主要有语音的短时能量,短时平均过零率,短时自相关函数等。 本实验要求掌握时域特征分析原理,并利用已学知识,编写程序求解语音信号的短时过零率、短时能量、短时自相关特征,分析实验结果,并能掌握借助时域分析方法所求得的参数分析语音信号的基音周期及共振峰。 二、实验原理及实验结果 1.窗口的选择 通过对发声机理的认识,语音信号可以认为是短时平稳的。在5~50ms的范围内,语音频谱特性和一些物理特性参数基本保持不变。我们将每个短时的语音称为一个分析帧。一般帧长取10~30ms。我们采用一个长度有限的窗函数来截取语音信号形成分析帧。通常会采用矩形窗和汉明窗。图1.1给出了这两种窗函数在帧长N=50时的时域波形。 图1.1 矩形窗和Hamming窗的时域波形 矩形窗的定义:一个N点的矩形窗函数定义为如下 hamming窗的定义:一个N点的hamming窗函数定义为如下 这两种窗函数都有低通特性,通过分析这两种窗的频率响应幅度特性可以发现(如图1.2):矩形窗的主瓣宽度小(4*pi/N),具有较高的频率分辨率,旁瓣峰值大(-13.3dB),会导致泄漏现象;汉明窗的主瓣宽8*pi/N,旁瓣峰值低(-42.7dB),可以有效的克服泄漏现象,具有更平滑的低通特性。因此在语音频谱分析时常使用汉明窗,在计算短时能量和平均幅度时通常用矩形窗。表1.1对比了这两种窗函数的主瓣宽度和旁瓣峰值。 图1.2 矩形窗和Hamming窗的频率响应 表1.1 矩形窗和hamming窗的主瓣宽度和旁瓣峰值 窗函数 主瓣宽度 旁瓣峰值 矩形窗 4*pi/N 13.3dB hamming 8*pi/N 42.7dB 2.短时能量 由于语音信号的能量随时间变化,清音和浊音之间的能量差别相当显著。因此对语音的短时能量进行分析,可以描述语音的这种特征变化情况。定义短时能量为: ,其中N为窗长 特殊地,当采用矩形窗时,可简化为: 图1.3和图1.4给出了不同矩形窗和hamming窗长的短时能量函数,我们发现:在用短时能量反映语音信号的幅度变化时,不同的窗函数以及相应窗的长短均有影响。hamming窗的效果比矩形窗略好。但是,窗的长短影响起决定性作用。窗过大(N 很大),等效于很窄的低通滤波器,不能反映幅度En的变化;窗过小( N 很小),短时能量随时间急剧变化,不能得到平滑的能量函数。在11.025kHz左右的采样频率下,N 选为100~200比较合适。 短时能量函数的应用:1)可用于区分清音段与浊音段。En值大对应于浊音段,En值小对应于清音段。2)可用于区分浊音变为清音或清音变为浊音的时间(根据En值的变化趋势)。3)对高信噪比的语音信号,也可以用来区分有无语音(语音信号的开始点或终止点)。无信号(或仅有噪声能量)时,En值很小,有语音信号时,能量显著增大。 图1.3 不同矩形窗长的短时能量函数 图1.4 不同hamming窗长的短时能量函数 3.短时平均过零率 过零率可以反映信号的频谱特性。当离散时间信号相邻两个样点的正负号相异时,我们称之为“过零”,即此时信号的时间波形穿过了零电平的横轴。统计单位时间内样点值改变符号的次数具可以得到平均过零率。定义短时平均过零率: 其中 为符号函数, ,在矩形窗条件下,可以简化为 短时过零率可以粗略估计语音的频谱特性。由语音的产生模型可知,发浊音时,声带振动,尽管声道有多个共振峰,但由于声门波引起了频谱的高频衰落,因此浊音能量集中于3KZ以下。而清音由于声带不振动,声道的某些部位阻塞气流产生类白噪声,多数能量集中在较高频率上。高频率对应着高过零率,低频率对应着低过零率,那么过零率与语音的清浊音就存在着对应关系。. 图1.5为某一语音在矩形窗条件下求得的短时能量和短时平均过零率。分析可知:清音的短时能量较低,过零率高,浊音的短时能量较高,过零率低。清音的过零率为0.5左右,浊音的过零率为0.1左右,但两者分布之间有相互交叠的区域,所以单纯依赖于平均过零率来准确判断清浊音是不可能的,在实际应用中往往是采用语音的多个特征参数进行综合判决。 短时平均过零率的应用:1)区别清音和浊音。例如,清音的过零率高,浊音的过零率低。此外,清音和浊音的两种过零分布都与高斯分布曲线比较吻合。2)从背景噪声中找出语音信号。语音处理领域中的一个基本问题是,如何将一串连续的语音信号进行适当的分割,以确定每个语音的信号,亦即找出每个单词的开始和终止位置。3)在孤立词的语音识别中,可利用能量和过零作为有话无话的鉴别。 图1.5 矩形窗条件下的短时平均过零率 4、短时自相关函数 自相关函数用于衡量信号自身时间波形的相似性。清音和浊音的发声机理不同,因而在波形上也存在着较大的差异。浊音的时间波形呈现出一定的周期性,波形之间相似性较好;清音的时间波形呈现出随机噪声的特性,样点间的相似性较差。因此,我们用短时自相关函数来测定语音的相似特性。短时自相关函数定义为: 令 ,并且 ,可以得到: 图6给出了清音的短时自相关函数波形,图7给出了不同矩形窗长条件下(窗长分别为N=70,N=140,N=210,N=280)浊音的短时自相关函数波形。由图1.6、图1.7短时自相关函数波形分析可知:清音接近于随机噪声,清音的短时自相关函数不具有周期性,也没有明显突起的峰值,且随着延时k的增大迅速减小;浊音是周期信号,浊音的短时自相关函数呈现明显的周期性,自相关函数的周期就是浊音信号的周期,根据这个性质可以判断一个语音信号是清音还是浊音,还可以判断浊音的基音周期。浊音语音的周期可用自相关函数中第一个峰值的位置来估算。所以在语音信号处理中,自相关函数常用来作以下两种语音信号特征的估计: 1)区分语音是清音还是浊音; 2)估计浊音语音信号的基音周期。 图1.6 清音的短时自相关函数 图1.7 不同矩形窗长条件下的浊音的短时自相关函数 5、时域分析方法的应用 1)基音频率的估计 首先可利用时域分析(短时能量、短时过零率、短时自相关)方法的某一个特征或某几个特征的结合,判定某一语音有效的清音和浊音段;其次,针对浊音段,可直接利用短时自相关函数估计基音频率,其方法是:估算浊音段第一最大峰的位置,再利用抽样率计算基音频率,举例来说,若某一语音浊音段的第一最大峰值约为35个抽样点,设抽样频率为11.025KHZ,则基音频率为11025/35=315 HZ。 但是,实际上第一最大峰值位置有时并不一定与基音周期吻合。一方面与窗长有关,另一方面还与声道特性有关。鉴于此,可采用三电平削波法先进行预处理。 2)语音端点的检测与估计 可利用时域分析(短时能量、短时过零率、短时自相关)方法的某一个特征或某几个特征的结合,判定某一语音信号的端点,尤其在有噪声干扰时,如何准确检测语音信号的端点,这在语音处理中是富有挑战性的一个课题。 三、附录(参考程序) 1) 短时能量 (1)加矩形窗 a=wavread('beifeng.wav'); subplot(6,1,1),plot(a); N=32; for i=2:6 h=linspace(1,1,2.^(i-2)*N);%形成一个矩形窗,长度为2.^(i-2)*N En=conv(h,a.*a);% 求短时能量函数En subplot(6,1,i),plot(En); if(i==2) legend('N=32'); elseif(i==3) legend('N=64'); elseif(i==4) legend('N=128'); elseif(i==5) legend('N=256'); elseif(i==6) legend('N=512'); end end (2)加汉明窗 a=wavread('beifeng.wav'); subplot(6,1,1),plot(a); N=32; for i=2:6 h=hanning(2.^(i-2)*N);%形成一个汉明窗,长度为2.^(i-2)*N En=conv(h,a.*a);% 求短时能量函数En subplot(6,1,i),plot(En); if(i==2) legend('N=32'); elseif(i==3) legend('N=64'); elseif(i==4) legend('N=128'); elseif(i==5) legend('N=256'); elseif(i==6) legend('N=512'); end end 2) 短时平均过零率 a=wavread('beifeng.wav'); n=length(a); N=320; subplot(3,1,1),plot(a); h=linspace(1,1,N); En=conv(h,a.*a); %求卷积得其短时能量函数En subplot(3,1,2),plot(En); for i=1:n-1 if a(i)>=0 b(i)= 1; else b(i) = -1; end if a(i+1)>=0 b(i+1)=1; else b(i+1)= -1; end w(i)=abs(b(i+1)-b(i)); %求出每相邻两点符号的差值的绝对值 end k=1; j=0; while (k+N-1)
/
本文档为【数字语音信号处理】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索