为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

语音信号处理与现代语音通信[zhouzhou]

2011-02-15 50页 ppt 2MB 69阅读

用户头像

is_886602

暂无简介

举报
语音信号处理与现代语音通信[zhouzhou]null 语音信号处理与 现代语音通信 杨震 博士 教授、博导 2005.9 语音信号处理与 现代语音通信 杨震 博士 教授、博导 2005.9 授 课 内 容 授 课 内 容【1】  绪论 【2】  声音信号的分类与数字化 【3】  语音的发声模型和人的听觉特性 【4】 语音信号的时域和频域分析方法 【5】 语音信号的线性预测编码(LPC)技术 【6】 演示实验 【7】 各种语音处理和通信系统的质量评价体系 【8】 语音信号的数字压缩标准...
语音信号处理与现代语音通信[zhouzhou]
null 语音信号处理与 现代语音通信 杨震 博士 教授、博导 2005.9 语音信号处理与 现代语音通信 杨震 博士 教授、博导 2005.9 授 课 内 容 授 课 内 容【1】  绪论 【2】  声音信号的分类与数字化 【3】  语音的发声模型和人的听觉特性 【4】 语音信号的时域和频域分析方法 【5】 语音信号的线性预测编码(LPC)技术 【6】 演示实验 【7】 各种语音处理和通信系统的质量评价体系 【8】 语音信号的数字压缩标准 【9】 语音波形编码技术-part one(ADPCM系统) 【10】语音波形编码技术-part two(VQ、SBC、APC系统) 【11】语音参数及混合编码技术-part one 授 课 内 容 授 课 内 容【12】语音参数及混合编码技术-part two 移动通信GSM系统中的语音压缩编码技术-RPE/LTP 移动通信CDMA系统和多媒体通信系统中的语音编码技术-G.723.1 MP-MLQ/ACELP和G.729 CS-ACELP 【13】语音信号VBR编码技术 【14】人机通信-part one语音识别原理 【15】人机通信-part two语音合成原理 【16】实用系统中的语音增强与消噪技术 【17】语音压缩编码、消噪、识别与合成演示实验 【18】语音在IP和ATM网络中的通信技术-part one 【19】语音在IP和ATM网络中的通信技术-part two 【20】语音技术研究热点 参考文献 参考文献中文 1、王柄锡 “语音编码”,西安电子科技大学出版社,2002 2、杨行峻, 迟惠生 “语音信号数字处理” 电子工业出版社,1995 3、易克初,田斌,付强“语音信号处理”,国防工业出版社,2000 4、赵力 “语音信号处理”,机械工业出版社,2003 5、拉宾纳,谢佛 “语音信号数字处理” 科学出版社,1978 6、胡航 “语音信号处理”, 哈尔滨工业大学出版社,2000 7、谢依兰 “语音信号数字处理技术” 学苑出版社,1993 8、朱民雄 “计算机语音技术” 北京航空航天大学出版社,2002 9、胡光锐 “语音处理与识别” 上海科学技术出版社,1994 10、姚天任 “数字语音处理” 华中理工大学出版社,1992 11、陈尚勤等 “语言信号数字处理” 电子科技大学出版社,1991 12、陈永彬, 王仁华 “语言信号数字处理” 中国科技大学出版社,1990 13、王柄锡 “变速率语音编码”,西安电子科技大学出版社,2004 参 考 文 献 参 考 文 献外文 1、R.P.Ramachandran, R.Mammane “Modern Methods of Speech Processing”, Kluwer Academic Publishers, 1995 2、Gordon E.Pelton “Voice Processing” Mc-Graw-Hill, Inc., 1993 3、D.P.Morgen, C.L.Scofield “Neural Networks and Speech Processing” Kluwer Academic Publishers, 1991 4、Claudio Becchetti & Lucio Prina Ricotti “Speech Recognition-Theory and C++ Implementation” 5、M.R.Schroeder “Computer Speech-Recognition, Compression, Synthesis”, Springer,1999 6、Robert D.Rodman “Computer Speech Technology”,Artech House,INC,1999 7、Joel Mambretti, Andrew Schmidt “Next Generation Internet:Creating Advanced Networks and Services”, Wiley,1999 8、Renato De Mori “Spoken Dialogues with Computers”,Academic Press, 1998 参 考 文 献 参 考 文 献外文 9、Frederick Jelinek “statistical methods for speech recognition”, MIT Press,1997 10、Randy Goldberg, Lance Riek “A Practical Handbook of Speech Coders”, CRC Press,2000 11、John R. Deller, JR. John G. Proakis, John H.L. Hansen “Discrete Time Processing of Speech Signals”, 1993 12、Rick Beasley, Mike Farley, John O’reilly, Leon Squire “Voice Application Development with VoiceXML” SAMS Publishing, USA, 2001 13、Proceedings of ICASSP (声学、语音、信号处理国际会议录) 14、IEEE Transactions on Speech and Audio Processing 15、IEEE Transactions on Signal Processing 16、Speech Communications 17、ICSLP(Spoken Language Processing)绪 论绪 论☆当今世界正处于工业时代向信息时代的飞速转变时刻,在这个过程中,计算机技术、通信技术和电子信息技术的高速发展,是推动人类社会向信息社会不断进步的基础。因特网络的普及、电子购物的兴起、多媒体通信及其应用的蓬勃发展,无一不是人类社会走向信息社会的标志 ☆信息的获取、处理、传输和存储,是信息社会技术发展的一个主要任务 ☆人类作为社会的主人,一直是接收和发送信息的主体 ☆语音,始终是人类互相交流、互相通信的最主要、最方便、最快捷的信息载体null☆语音信号处理是一门涉及面很广的交叉学科 ☆研究内容包括 1、语音特性分析和建模 2、语音数字压缩编码 3、语音识别 4、语音合成 5、语音增强 6、现代语音通信 第一章 声音信号的分类与数字化 第一章 声音信号的分类与数字化 §1.1 声音信号的分类 语音(speech) 自然语音 窄带语音, 又叫电话频带语音 宽带语音 非语声音频信号(audio) 广播电视质量声音 CD质量声音 高保真HiFi(High Fidelity)和环绕(Surrounded Effect)声音 nullDolby AC3 5.1声道音响位置 第一章 声音信号的分类与数字化 第一章 声音信号的分类与数字化 §1.2 声音信号的特征参数 §1.2.1声音的传播速度、频率、周期和波长 §1.2.2声压、声功率、声强和声级 §1.2.3声音三要素 null音高与频率间关系 Fletcher-Munson 人耳听觉等响度级曲线 第一章 声音信号的分类与数字化 第一章 声音信号的分类与数字化 §1.3 声音信号的数字化 常见采样频率 电话通信领域的8千赫兹和16千赫兹。 计算机声音处理系统中的11.025千赫兹,22.05千赫兹和44.1千赫兹。 广播,影视,娱乐领域的32千赫兹,44.1千赫兹和48千赫兹。 nullnull存储一分钟声音信号所需要的存储容量第一章 声音信号的分类与数字化 第一章 声音信号的分类与数字化 §1.4 声音信号的数字存储格式 WAV:数字音频波形格式,微软公司开发 VOC和DAT:多用于声霸卡等一些声音采集 程序的DOS软件环境,新加坡创新公 司开发 AU:工作站的UNIX环境下使用 MIDI:数字乐器合成器,多用于合成音乐 目前我们遇到的多数为.wav和.mid文件第一章 声音信号的分类与数字化 第一章 声音信号的分类与数字化 微软公司与IBM公司共同制定的WAV格式文件的第一个四字节是RIFF,它用来指明文件属于多媒体资源交换文件RIFF(Resource Interactive File Format)的一种. RIFF文件的基本结构是块,第一个块为WAVE类型,指定文件为波形数字音频文件,第二个块为fmt块,定义文件中其它数据的格式。第一章 声音信号的分类与数字化 第一章 声音信号的分类与数字化 typedef struct_WaveFmt { WORD wFormatTag; //编码方式的标记;PCM时为1 WORD nChnnels; //信道数;单声道等于0,立体声等于2 WORD nSamplesPerSec; //每秒采样数 WORD nAvgBytesPerSec; //每秒平均字节数 WORD nBlockAlign; //数据块的偏移量 }fmt 第二章 语音信号的产生、特征与人耳的听觉特性 第二章 语音信号的产生、特征与人耳的听觉特性 §2.1 语音信号的产生 人类发音器官示意图 第二章 语音信号的产生、特征与人耳的听觉特性 第二章 语音信号的产生、特征与人耳的听觉特性 发音器官: 1)肺和气管 2)咽喉 3)声道(包括口腔、鼻腔等) 4)嘴唇null男声发音“我的语音”的时域波形和语谱图 第二章 语音信号的产生、特征与人耳的听觉特性 第二章 语音信号的产生、特征与人耳的听觉特性 第二章 语音信号的产生、特征与人耳的听觉特性 第二章 语音信号的产生、特征与人耳的听觉特性 §2.2 语音信号的分类 根据激励方式划分: 浊音(voiced speech),又称为有声语音 基音(pitch) 清音(unvoiced speech),又称为无声语音 爆破音(plosive speech) 根据发音通道是否堵塞划分:元音和辅音null第二章 语音信号的产生、特征与人耳的听觉特性 第二章 语音信号的产生、特征与人耳的听觉特性 §2.3 语音信号产生的模型 语音生成模型常用的有: 声管模型:波动方程描述 LPC模型:数学模型描述 共振峰模型:谐振腔描述 null语音信号产生的简化数字模型-LPC模型 null级联型共振峰模型 并联型共振峰模型 null混合型共振峰模型 第二章 语音信号的产生、特征与人耳的听觉特性 第二章 语音信号的产生、特征与人耳的听觉特性 §2.4 人耳的听觉特征-临界频带和Bark谱 人耳的掩蔽(masking)作用指的是耳朵对一个声音的听觉感受,受到另一个声音影响的现象,Fletcher和Munson 1937年发现,一个音调(tone)可被一个以音调频率为中心频率的宽带噪声掩盖而听不见,并且,如果该宽带噪声能量不变而改变其带宽的话,这种掩盖现象不受噪声带宽变化的影响,除非噪声带宽超过一个临界值,这个临界值即称为临界频带(critical band)。换言之,人耳对一个临界频带里的音不易分清。 null第二章 语音信号的产生、特征与人耳的听觉特性 第二章 语音信号的产生、特征与人耳的听觉特性 ☆临界频带这个参数提出的意义是可将人耳当作一个并联的滤波器组,各个滤波器有不同的带宽,分别对听觉作出不同的贡献 ☆临界频带的单位一般用Bark来表示以纪念科学家Barkhauseu。1 Bark用来指明一个临界频带的频率宽度 ☆若记Bark域的频率变量为b,赫兹(Hertz)域频率变量为f,则有: 第二章 语音信号的产生、特征与人耳的听觉特性 第二章 语音信号的产生、特征与人耳的听觉特性 §2.5 人耳的各种听觉效应 掩蔽效应 同时掩蔽(频率掩蔽):纯音的同时掩蔽现象 第二章 语音信号的产生、特征与人耳的听觉特性 第二章 语音信号的产生、特征与人耳的听觉特性 非同时掩蔽(时间掩蔽):纯音的非同时掩蔽现象 第二章 语音信号的产生、特征与人耳的听觉特性 第二章 语音信号的产生、特征与人耳的听觉特性 §2.5 人耳的各种听觉效应 哈斯(Hass)效应 双耳效应 鸡尾酒会效应 第三章 语音信号的分析方法第三章 语音信号的分析方法§3.1语音信号的统计特性 一、概率密度函数:超高斯随机信号;近似Gamma分布,可用 Laplace 或 Gauss分布近似 二、零均 三、非平稳时变信号;短时平稳:10~30ms第三章 语音信号的分析方法第三章 语音信号的分析方法§3.2语音信号的短时分析方法 短时能量 短时平均幅度 短时平均过零率 短时自相关函数 短时傅立叶变换 第三章 语音信号的分析方法第三章 语音信号的分析方法一、短时能量En和短时平均幅度Mn 浊音:大 清音:较小 静默:最小 第三章 语音信号的分析方法第三章 语音信号的分析方法二、短时过零率Zn 浊音:较小 清音:大 静默:最小(如果没有背景噪声),较大(如果存在背景噪声) 一般的经验数据是,对于清音语音,在采样频率为8千赫兹条件下,其过零率为每10ms内Zn≥49,而对于浊音语音,其过零率为每10ms内Zn≤14第三章 语音信号的分析方法第三章 语音信号的分析方法三、短时自相关函数 浊音:呈现‘准’周期性、逐渐衰减 ->求基音周期 清音:Rn(0)较大,衰减很快 静默:Rn(0)小,衰减很快 第三章 语音信号的分析方法第三章 语音信号的分析方法四、短时傅立叶变换分析 1、反映了短时间内激励和声道的频谱特性,声道特性主要由频谱的包络特性来描述 2、浊音:频谱能量集中在低频率区,衰减较快,呈现锯齿状 清音:频谱能量分布在整个频率段内,无明显衰减 静默:频谱能量很小 3、可以求基音频率null浊 音 谱 清 音 谱第三章 语音信号的分析方法第三章 语音信号的分析方法§3.3语音信号的分类和词的分割方法 某帧分类:浊音、清音、静默 分类技术: 一、基于能量或过零率硬判决 二、基于自相关函数或傅氏变换硬判决 三、基于模式分类技术 第三章 语音信号的分析方法第三章 语音信号的分析方法 用于语音信号帧属性划分的参数选择 可用来判决信号帧特性的参数有不少,比如基于各帧信号的能量、过零率、低通滤波后语音能量、高/低通能量比、一阶LPC系数、一阶LPC反射系数、每帧预测误差能量、位于基音周期处的自相关函数比等。 文献表明,仅根据单个参数是很难准确判断输入信号特征的,即使是在相对简单的二元语音分类如VAD中,往往也要根据多个参数进行分类,如G.729B标准采用了四种参数。 第三章 语音信号的分析方法第三章 语音信号的分析方法 对电话语音进行的统计表明,每个话者通话时各种语音信号帧的大致比例(统计帧数3000,帧长20毫秒)为: 背景声:55.7% 清 音: 12.5% 浊 音: 32.8% 第三章 语音信号的分析方法第三章 语音信号的分析方法 词的分割技术:端点检测。多数基于短时能量和过零率,多门限判决 能量和过零率检测法-双门限法。这种方法也常称为显式法,即端点的确定与以后的判决无关。具体的说,首先用短时能量做第一次判断,然后在此基础上用短时平均过零率做第二次判断。 第四章 语音信号的LPC分析方法第四章 语音信号的LPC分析方法 信号的预测问题可表述如下: 给定P个观测点 寻找某个函数: 使估计误差序列 之均方值最小化 若 是线性函数, 则为众所周知的LP问题: 第四章 语音信号的LPC分析方法第四章 语音信号的LPC分析方法基音LP预测分析(长项预测:Long-term) T 是基音周期, M一般取1或2 第四章 语音信号的LPC分析方法第四章 语音信号的LPC分析方法§4.1 LPC技术是语音信号处理中最成功、最成熟的技 术。语音编码国际标准中广泛使用: G.723.1 MP-MLQ/ACELP G.728 LD-CELP(Low Delay CELP) G.729 CS-ACELP(Conjugate Structure- Algebraic CELP) GSM RPE/LTP(Regular Pulse Excited/Long Term Prediction) IS-54 VSELP(Vector Sum Excited Linear Prediction) IS-95 QCELP(Qualcomm CELP) FS(Federal Standards) FS1015 LPC-10、FS1016 CELP Inmarsat APC(Adaptive Prediction Coding) MPLPC (Multi-Pulse Linear Prediction Coding) IMBE(Improved Multi-Band Excite)第四章 语音信号的LPC分析方法第四章 语音信号的LPC分析方法§4.2 语音信号线性预测分析的基本原理 1、基于简化语音发声数学模型 需要分析提取声道和激励参数 第四章 语音信号的LPC分析方法第四章 语音信号的LPC分析方法2、声道用时变数字滤波器代替 语音抽样s(n)和激励信号e(n)之间的关系可以用下列的差分方程来表示: A(Z)称作逆滤波器,传输函数为: 第四章 语音信号的LPC分析方法第四章 语音信号的LPC分析方法问题: 3、如何求解时变滤波器的参数和模型激励参数 (1)   激励参数主要是清/浊音判断、浊音中基音周期的求解等 (2)   求取时变滤波器的参数即P 和 是关键 (3)   主要方法->自相关法和协方差法 第四章 语音信号的LPC分析方法第四章 语音信号的LPC分析方法§4.3 语音信号线性预测分析的自相关法和协方差法 第n时刻的预测序列: 第n时刻的预测误差序列: 方程 求解出的 ,即为声道(时变数字滤波器)特性中 的参数 第四章 语音信号的LPC分析方法第四章 语音信号的LPC分析方法上式的解为: 定义相关矩阵 第四章 语音信号的LPC分析方法第四章 语音信号的LPC分析方法§4.3.1自相关法: 设 在区间 外等于零, 信号范围 [0,N-1] 第四章 语音信号的LPC分析方法第四章 语音信号的LPC分析方法方程解法:迭代运算 Levinson、Durbin、Burg、Lattice、Schur等算法 第四章 语音信号的LPC分析方法第四章 语音信号的LPC分析方法§4.3.2协方差法: 设 在区间 外等于零, 信号范围 [-P,N-1] 方程解法:基于矩阵的Cholesky分解(LU分解) 第四章 语音信号的LPC分析方法第四章 语音信号的LPC分析方法§4.3.3 时变数字滤波器的增益 准则:语音的能量应该和线性预测模型产生的合成语音能量相等§4.3.4 Durbin(杜宾)法第四章 语音信号的LPC分析方法第四章 语音信号的LPC分析方法§4.4语音信号线性预测分析各种算法特性的比较   第四章 语音信号的LPC分析方法第四章 语音信号的LPC分析方法§4.5 语音信号线性预测误差信号 1、 针对不同语音激励时 的形状 2、 基于 求解语音的基音周期 3、 简单逆滤波器跟踪法SIFT §4.6 基于ANN的非线性语音预测技术 null第四章 语音信号的LPC分析方法第四章 语音信号的LPC分析方法§4.7 语音各种参数的特性及其相互转换 1、反射系数与 2、对数面积比与反射系数 3、系统函数H(Z)的极点与 4、线谱对LSP系数与 5、LPC倒谱系数与Mel倒谱系数 第四章 语音信号的LPC分析方法第四章 语音信号的LPC分析方法倒谱和同态信号处理 LPC倒谱(对LPC模型的Z变换H(Z)求倒谱 ) 第四章 语音信号的LPC分析方法第四章 语音信号的LPC分析方法MEL倒谱 第五章语音处理和通信系统的 质量评价体系 第五章语音处理和通信系统的 质量评价体系 §5.1语音处理系统质量评价 语音处理系统主要指语音数字压缩编解码系统、语音识别与合成系统、语音增强系统等。   §5.1.1语音数字压缩编解码系统质量评价 对编解码器性能的要求主要包含下列方面:第五章语音处理和通信系统的 质量评价体系 第五章语音处理和通信系统的 质量评价体系 恢复声音的质量 即经过编码系统再经过收方解码系统恢复出的声音质量,主要有SNR和MOS两种 单项感觉指标还有如可懂度、清晰度、自然度指标等 比特率 指的是编码器对输入的声音压缩后,每秒送出的二进制码元个数 第五章语音处理和通信系统的 质量评价体系 第五章语音处理和通信系统的 质量评价体系 处理的复杂度 指实现编译码算法的困难程度。 处理时延 是完成编译码算法所需的时间。 容错能力或鲁棒性(Robustness) 指编译码系统抗误差,线路噪声等各种干扰的能力。 第五章语音处理和通信系统的 质量评价体系 第五章语音处理和通信系统的 质量评价体系 §5.1.2语音识别与合成系统质量评价 衡量语音识别系统的质量评价主要是 正确识别率 处理的复杂度 处理时延 衡量语音合成系统的质量评价主要是 可懂度 清晰度 自然度 第五章语音处理和通信系统的 质量评价体系 第五章语音处理和通信系统的 质量评价体系 §5.1.3语音增强系统质量评价 衡量语音增强系统的质量评价主要是恢复声音的质量,这与语音编码相似 §5.2语音通信系统质量评价 接收端恢复语音的质量 客观质量,即信噪比SNR 主观质量,常用的是 MOS分数, 还加上可懂度、清晰度和自然度指标。 传输速率或占用信道带宽 误码率或分组丢失率 传输时延和变化第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 §6.1 声音信号的压缩标准null位数或位数1616第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 §6.2. 常用语音信号数字压缩标准: §6.2.1 国际标准。 1972年制定的G.711PCM标准 1984年制定的G.721 ADPCM标准 1990年合并归入G.726。 1996年制定的G.723.1 MP-MLQ/ACELP标准 1992年制定的G.728 LD-CELP(Low Delay CELP)标准 1996年制定的G.729 CS-ACELP(Conjugate Structure- Algebraic CELP)标准 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 1988年制定的G.722SB-ADPCM标准(Sub Band ADPCM) 1990年制定的G.727Embeded-ADPCM (又称GEMB) 标准 §6.2.2 地区和国家标准 欧洲GSM移动通信标准,RPE/LTP(Regular Pulse Excited/Long Term Prediction),1987年 IS(Interim Standard)北美移动通信标准 IS-54 标准VSELP(Vector Sum Excited Linear Prediction) ,1990年 IS-95 标准QCELP(Qualcomm CELP) ,1993年第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 FS(Federal Standards)美国联邦标准 FS1015:LPC-10 FS1016:CELP Inmarsat国际海事卫星组织标准 APC(Adaptive Prediction Coding) MPLPC (Multi-Pulse Linear Prediction Coding) IMBE(Improved Multi-Band Excite) DECT, CT2,CT3,PHP英国,瑞典和日本无绳电话标准 G.726ADPCM CVSDM(Continously Variable Slope Differential Modulation) 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 §6.3常用音频信号数字压缩标准: §6.3.1国际标准。   红皮书CD激光唱片编码标准,1980年,PCM 黄皮书CD-ROM 盘片标准,1985年 MPEG标准 1992年11月颁布的MPEG1, 1994年11月颁布的MPEG2, 1999年1月颁布的MPEG4, 1997年4月颁布的MPEG2-7 AAC(Advanced Audio Coding) 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 §6.3.2地区和国家标准 NICAM(Nearly Instantaneous Companding Audio Multiplex)标准 MUSICAM标准 DANCE(DPCM Audio Near-Instantaneous Compressing and Expanding)标准 Dolby AC3 MPC1和MPC2标准 ITU下属的研究小组SG16,目前就在从事4kb/s左右(代号G/XV)语音压缩编码标准制定工作 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 §6.4 语音信号的压缩技术 按照编码系统码率大小,输入信号频带宽度, 所采用编码技术,有失真和无失真等进行分类 有失真编码:波形编码,参数编码、混合编码 §6.4.1 波形编码 其含义即为编码系统直接对语音时域或频域波形样值进行编码 §6.4.1.1 PCM编码法 §6.4.1.2 ADPCM编码法 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 基于后向预测的ADPCM语音编码系统 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 ADPCM: 自适应预测+自适应量化第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 §6.4.1.3 子带编码 SBC (Subband Coding) 和自适应变换编码 ATC ( Adaptive Transformation Coding) 原理: 设想将输入信号用某种方法划分成不同频段上的子信号, 然后区别对待,根据各子信号的特性,分别编码 问题: 如何将输入信号划分成不同频带的子信号,并如何能再将子信号无失真地合成出原始语音信号? 各子频带如何合理分配码字? 根据分配的码字,各子频带采用何种方法进行压缩编码? null第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 §6.4.1.4 矢量量化编码VQ(Vector Quantization) 独立地对一个个样值量化编码的方式叫标量量化SQ (Scale Quantization),而将一个个样值看作一个整体,作为一个矢量,进行整体量化编码称为VQ。第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 VQ编码的关键一方面在于矢量码本的构造,其次在于采用何种编码量化准则 1、LBG算法 2、MSE准则和IS(板昌-斋田)准则 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 改进VQ算法之一:二进树VQ第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 §6.4.2 参数编码 基于模型,从输入语音中通过分析提取出相应的模型参数,用对模型参数的编码,代替对原语音波形进行编码和传输,并在接收端根据这些参数和语音发声模型,重新合成出原始语音的系统,称为参数编码系统。通常也称为简单声码器Vocoder(Voice Coder)。 整个语音生成模型的参数就有: 1(声道模型阶数P ) + P (P 个模型系数) + 1(调节音量的增益) + 2(激励参数) = P +4 个参数 参数编码主要追求的是与原始语音具有相同或接近的听觉效果,而不是波形的一致。 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 参数编码问题 低速率参数编码存在一些根本的问题,使这种方法不能产生出具有良好质量的合成语音,实验发现,问题不在于模型参数的估计不准确,而在于模型的假设上,尤其是激励部分的假设过于简单化了。 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 尽管模型过于简化影响了合成语音质量,但我们从图中还是明显看出,通过AR模型,进行线性预测是十分有效的,这时的预测误差信号的动态范围大大小于原信号。根据我们在波形编码中经验,只要我们将预测误差信号,能用一种比参数编码系统中的二元激励更好的激励模型来代替,那么在较低码率上合成出高质量的语音还是很有希望的。这一思想正是这十多年来语音中低速率压缩编码领域所走过的道路。 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 §6.4.3 混合编码 混合编码是波形编码和参数编码两种系统优点的结合: 既利用了语音生成模型,通过对模型中的参数(主要是声道参数)进行编码,减少了波形编码中被编码对象的动态范围或数目;又使编码的过程, 产生接近原始语音波形的合成语音,以保留说话人的各种自然特征,提高了合成语音质量。 目前得到广泛研究和应用的CELP编码法,以及基于它的各种改进算法,是混合编码法的典型代表。 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 分析/合成 编码系统原理 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 一、多脉冲线性预测编码MPLPC(Multi-Pulse Linear Prediction Coding);B.S.Atal 1982年提出第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 系统工作原理: 输入信号分成一个个分析帧(长度20ms左右),每帧信号先作LP分析,得到合成滤波器所需的系数。接下来进行脉冲激励中最佳的多个脉冲的位置和大小的搜索。最优的结果当然是这多个脉冲一起优化的结果。不过,脉冲位置求解产生的方程是非线性的,很难得到闭式解。所以一般是一个一个脉冲序贯求它们的位置和大小。 首先,可以用相关法找出激励序列中仅一个位置有不为零的脉冲时,它的位置和幅度。确定它的位置和幅度的原则,应是使这个激励产生的合成语音与原始语音的经加权以后的误差,达到最小化。由于合成滤波器是个线性系统,多个脉冲的激励信号,激励它产生的输出,可以由单个脉冲分别激励这个线性系统,再把各自的输出相加得到。第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 所以如果已有了一个激励脉冲的位置和幅度,那么由它产生的合成语音部分,我们已经知道了,且与别的脉冲激励该系统的输出无关。这样的话,得到一个激励脉冲后,马上把它合成出的语音,从原始语音中减掉,让剩下的脉冲,去逼近原始语音中剩下的部分。于是求后续脉冲的过程与求第一个脉冲是一样的,只是每一个脉冲激励,逼近的目标函数发生了变化而已。 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 感觉加权滤波器原理 基于人耳的听觉有一个特性: 在同一频率点上一个较强的信号对其频率附近较弱的信号有屏蔽作用(屏蔽效应)。根据这一点,编码时可以允许在语音频谱分量很强的地方,产生较大的量化误差而不对听觉产生明显影响。所以在编码过程中,寻找好的激励信号源时,先对目标函数进行感觉加权修正。 误差最小化一般是采用的最小平方误差MSE准则,这个准则使误差信号的谱趋于平坦化。因此,如果直接将原始语音与合成语音的误差作为目标函数,那么形成的误差将在整个语音频带内趋于平均分布。如果对误差目标函数进行预先畸变,再用MSE准则使之最小化,那么只是使误差在畸变后的信号频带中均匀分布,而合成语音中真正的误差谱,是均匀分布误差谱经反畸变的结果,这样就可以人为地改变误差函数在频域的分布了。 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 多脉冲预测编码系统中需要编码传输的参数主要包括 1、 LPC参数(供接收方构造合成滤波器) 2、多脉冲激励的幅度和位置 通常LPC参数采用VQ,多脉冲激励的幅度和位置采用SQ。 多脉冲预测编码在9.6kbit/s左右码率时有较好的合成语音质量。 二、规则脉冲激励---长项预测压缩编码 RPE/LTP (Regular-Pulse Excitation/Long Term Prediction)   这是欧州数字蜂窝移动通信GSM(Group Special Mobile)标准中采用的语音压缩编码算法,它的标准码率为13kbit/s,也叫移动通信的全速率编码标准。 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 RPE/LTP语音压缩编码与前面谈到的MPLPC,都属于A/S编码方式 RPE/LTP与MPLPC的不同之处: 1、首先在于它的激励脉冲不象后者那样,位置任意放置。而是各个非零激励脉冲,呈现等间隔的规则排列。 2、RPE/LTP编码算法与MPLPC编码第二个不同点,正如该方案的名称所示,在于增加了基音预测系统以及相应的基音合成系统。 GSM标准中带基音合成滤波器的语音生成模型 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 GSM的编码主要有下列五个步骤: 1、预处理。包括采样,去直流,高频提升。 2、短项线性预测分析。对20毫秒一帧的信号采用Schur递代算法计算八阶LPC系数,并转换成对数面积比参数,进行编码。 3、进行短时分析滤波,即求STP系统的预测误差。 4、对上一步的误差信号进行基音预测,估计出基音合成系统中的T (基音周期)和 (幅度), 并量化编码。 5、规则脉冲激励序列编码。 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 三、码激励线性预测CELP (Code Excitation Linear Prediction) CELP编码系统是中低速率编码领域最成功的方案,它是1985年由M.R.Schroeder 和B.S.Atal 提出的。 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 CELP与多脉冲编码相比,只是激励部分不同。其实,如果将码本中的每个码矢量,看成一个个脉冲组成的激励,那也就与前者无太大区别了。当然, CELP系统中的每个码矢量,是一个整体,并且已经是量化了的结果(通过构造码本时进行训练完成的),所以CELP系统的激励编码时,不是一个个脉冲分别求解,而是一串激励脉冲一起求,求得的每个激励脉冲,位置和幅度也不必进行量化(已完成),只需将整个选中的脉冲串在码本中的位置(即它的下标),传送告知收方即可,因为收方也有同样的一个码本。这一点与MPLPC及RPE/LTP编码原理是不同。 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 双码本CELP编码系统第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 G.728 LD-CELP 编码系统第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 四、矢量和激励线性预测编码VSELP(Vector Sum Excitation Linear Prediction) 随机码本中的每个激励码矢量,都是由一组基矢量通过线性组合得到的。若设 代表第k 个码本的第m 个基矢量(在IS-54标准中, k =1,2;m =1,2...7),那么,该码本中的任意一个激励矢量,可以表示成: J 是基矢量数目;i =1,2....N; 代表该激励矢量在码本中的位置(在IS-54标准中, J =7, N=128)。 激励脉冲是基矢量的和构成的,故名矢量和激励。第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 五、G.729和G.723.1编码标准 G.729 CS-ACELP编码系统第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 五、G.729和G.723.1编码标准 G.729 CS-ACELP编码步骤: 1、预处理(高通滤波,定标)。 2、对10ms帧长语音段采用Levinson-Durbin法进行LPC分析(阶数10阶), 并将LP系数转换成线谱对LSP参数,用VQ技术量化编码。 3、将10ms帧分成两个5ms的子帧,分别求子帧语音模型对应的激励信号。 4、第二子帧的信号,合成滤波器系数取自第二步运算的结果,而第一子帧合成滤波器系数,通过第二子帧系数与前一帧系数内插得到(这样,第一子帧合成滤波器系数不必传输了)。 5、开环基音估计。即根据短项预测产生的预测误差,直接进行估计。第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 6、进行自适应码书搜索,得到语音中具有准周期特性的激励。根据第五步的结果,搜索范围可以很小。 G.729标准采取了一些措施,使得基音周期,还可以取分数值(三分之一样值精度), 提高了合成语音质量。 7、具有代数结构的固定码书搜索,得到语音模型的随机激励信号。 8、两个码书的增益Gc和Gp,采用具有共轭结构的两级码书进行矢量量化。 G.729 家族G.729 家族 1、G.729 (3/96) Coding of speech at 8 kbit/s using Conjugate-Structure Algebraic-Code-Excited Linear-Prediction (CS-ACELP) 2、G.729 Annex A (11/96) Reduced complexity 8 kbit/s CS-ACELP speech codec 3、G.729 Annex B (10/96) A silence compression scheme for G.729 optimized for terminals conforming to Recommendation V.70 4、G.729 An.B/Cor1 (2/98) 5、G.729 Annex C (9/98) Reference floating-point implementation for G.729 CS-ACELP 8 kbit/s speech coding 6、G.729 Annex D (9/98) 6.4 kbit/s CS-ACELP speech coding algorithm 7、G.729 Annex E (9/98) 11.8 kbit/s CS-ACELP speech coding algorithm第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 G.723.1 MP-MLQ编码系统第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 G.723.1 CS-ACELP编码步骤: (1)输入为16比特线性PCM信号。 (2)编码器每次处理一帧240个语音样点, 在抽样频率为8千赫兹时等于30ms时长。 (3)每帧语音首先高通滤波,然后被分成四个等长子帧,每子帧含60个样值。 (4)每个子帧用Levinson-Durbin法,求取10阶LPC滤波器系数。 (5)4个子帧中最后一个子帧的LPC系数, 经7.5赫兹带宽扩展,再转换成LSP系数。 LSP系数用预测分裂矢量量化器进行量化编码。具体做法是, 首先去除LSP系数中直流分量,再与前一帧解码的LSP矢量做预测,以减小动态范围。每个预测误差矢量(10维)分裂成三个维数分别为3,3,4的子矢量, 分别用8比特VQ码书量化编码。第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 (6)4个子帧的前三个子帧, 其量化后LSP(从而LPC)系数的获得,是通过对前一帧的解码LSP系数,与第四帧解码LSP系数的线性内插得到。 (7)各子帧得到解码LPC系数后,构成合成滤波器。 (8)各子帧用未量化的LPC系数,组成感觉加权滤波器。并对输入语音滤波得加权语音信号。 (9)对(8)的输出,每二个子帧做一次开环基音估计。所以一帧语音240个样点产生二个基音估计值。 (10)为改进语音质量,对加权语音,进行一次谐波形成滤波。滤波器传递函数为: (11)计算(7)中合成滤波器,(8)中感觉加权滤波器和(10)中谐波噪声滤波器,三者的组合滤波器的脉冲响应。这是经过感觉加权处理的合成滤波器。第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 (12)考虑到前后两帧间滤波器的影响, 去除(11)中组合滤波器的零输入响应。 (13)先进行CELP系统中自适应码书的量化,此处叫基音预测器,它是5阶的FIR系统。根据步骤(9)中求得的开环基音值,进行精细的闭环基音分析。求得的结果进行VQ编码。 (14)量化编码的最后一个对象是固定码书的编码(即图中的激励编码框,它是闭环运算的)。高速率采用多脉冲/最大似然量化,与普通多脉冲方案不同的是, 各脉冲幅度是一样的,符号可以不同;且所有脉冲位置,要么全在偶数号序列处,要么全在奇数序列位置处, 所以它与ACELP的码本,有相似之处。低速率时的固定码书的编码,即是ACELP, 比之高速率方案, 脉冲个数减少了,且位置限制更严,不同码字间存在简单代数移位关系。 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 §6.4.4 可变速率VBR编码 九十年代以来,VBR编码逐渐引起了人们的广泛注意, (1)语音固定速率的压缩技术,已使编码系统码率降到了4kb/s以下,进一步压缩码率并保持解码语音质量,越来越困难。而未被充分利用的语音信号的突发特性和人类交谈的方式特性,将是导致语音信号压缩码率再次大大下降的主要方法。 (2)通信领域的传输体系正发生重大的变革。新一代的计算机网络和通信网络中,信息是分组传输的,并且网络中资源的复用是统计方式,如果信源输出是与信源信息量变化有关的VBR码流,则更能提高网络的有效利用率。 (3)不同的通信系统,因网络容量和对通信质量的要求不同,使用许多不同压缩算法和系统,这给不同系统的互相联接、互相通信,带来了很大困难。需要寻找新方法。第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 VBR编码器分类: (1)与信源特性相关的VBR编码──SCDVBR(Source Characteristic Dependent VBR) (2)与网络容量相关的VBR编码──NCDVBR(Network Capacity Dependent VBR) (3)与信道特性相关的VBR编码──CCDVBR(Channel Characteristic Dependent VBR) (4)混合控制型VBR编码──HCVBR(Hybrid Control VBR) 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 §6.4.4 可变速率VBR编码- NCDVBR:G.727嵌入式编码 此类系统指同一只编码器有不同的工作速率,而低速率的码字包含在(嵌入)高速率的码字中,作为高速率工作时的核心码元。 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 §6.4.4 可变速率VBR编码- SCDVBR: G.729B 带语音特性检测的VBR编码:浊音、清音、静默 (基于四个参数判断:能量、低带能量、过零率、LSF) §6.4.4 可变速率VBR编码- CCDVBR:欧洲自适应多速率 编码AMR(见‘ An Adaptive Multi-Rate Speech Codec Based on MP-CELP Coding Algorithm for ETSI AMR Standard’,Proceedings of ICASSP,Seattle,Washington, USA,May,1998,Vol.1:137-140. ) §6.4.4 可变速率VBR编码- HCVBR 杨震"新的语音信号统一VBR编码方法" <电子学报>, 2002,1,Vol.30,No.1,pp49~53 第六章声音信号的数字压缩标准与技术 第六章声音信号的数字压缩标准与技术 An Adaptive Multi-Rate Speech Codec Based on MP-CELP Coding Algorithm for ETSI AMR Standard 摘要 This paper proposes a speech codec based on the Multi-Pulse based CELP (MP-CELP) coding and a convolutional coding algorithms for the ETSI Adaptive Multi-Rate (AMR) standard. The codec operates at several speech coding
/
本文档为【语音信号处理与现代语音通信[zhouzhou]】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索