为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

语音信号处理6

2016-12-18 37页 pdf 580KB 83阅读

用户头像

is_392846

暂无简介

举报
语音信号处理6 1 6.1 人工神经网络简介 6.2 人工神经网络的构成 6.3 几种神经网络模型及其算法 6.4 用神经网络进行模式识别的主要做法 6.5 人工神经网络模型的应用举例 2 6.1 人工神经网络简介 ™ 人工神经网络(Artificial Neural Network,ANN): 是由大量计算单元通过丰富联结构成的复杂的网络。在 一定程度上反映了人脑功能的若干基本特性,是一种更 接近于人的认知过程的计算模型。在现代生物学研究人 脑所取得的成果基础上提出的, 用于模拟人类大脑神经 网络的结构和行为特性...
语音信号处理6
1 6.1 人工神经网络简介 6.2 人工神经网络的构成 6.3 几种神经网络模型及其算法 6.4 用神经网络进行模式识别的主要做法 6.5 人工神经网络模型的应用举例 2 6.1 人工神经网络简介 ™ 人工神经网络(Artificial Neural Network,ANN): 是由大量计算单元通过丰富联结构成的复杂的网络。在 一定程度上反映了人脑功能的若干基本特性,是一种更 接近于人的认知过程的计算模型。在现代生物学研究人 脑所取得的成果基础上提出的, 用于模拟人类大脑神经 网络的结构和行为特性, 解决实际工程问. ™ 人工神经网络是由大量简单处理单元(神经元或节点) 广泛地相互连接而组成的一个并行处理网络系统。虽然 每个神经元的结构和功能十分简单,但大量神经元构成 的网络系统能处理复杂的问题,具有学习、分布式存储 和并行处理等能力,适合于进行语音信号处理。 3 ™ 人工神经网络可采用物理可实现的器件或利用现有的 计算机来模拟生物神经网络的某些结构与功能。 构成人工神经网络的三个基本要素是: (1)神经元,即人工神经网络的基本处理单元,在 网络中称为节点或网点。 (2)网络拓朴,即网络的结构以及神经元彼此联接 的方式。 (3)网络的训练(学习)算法。训练算法是指一些 决定联接各神经元的初始权值和阈值以及如何随着训 练模式的加入而调整这些权值和阈值的方法。 4 6.2 人工神经网络的构成 人工神经网络由神经元、网络拓扑、学习算法 (即权重迭代更新方式)三者构成。它在结构上与目 前广泛使用的Von Neumann机不同,组成网络的大量神 经元集体的、并行的活动可得到预期的处理结果,且 运算速度快。同时,人工神经网络具有非常强的学习 功能,神经元之间的联接权及网络的结构可通过学习 获得。 5 6.2.1 神经元模型 人工神经网络是模仿人脑构成的,基本单元为神经元。 一.生物神经元: 是生物神经系统的基本单元。 人脑: 约 100亿神经元组成的巨系统。 神经元组成: 细胞体,轴突,树突和突触 6 1.轴突:由细胞体向外延伸的最长一条分支, 输出电缆 传出细胞体的电信号。 2.树突:由细胞体向外延伸其他许多较短分支, 输入端 接收来自四面八方的神经冲动. 3.突触: 轴突和树突接触 功能性接触 4:细胞体:神经元主体,由细胞核,细胞质,细胞膜。 处理器 对来自其它神经元的神经冲动进行 处理, 产生一神经输出信号。 6.2.1 神经元模型 7 二、人工神经元:生物神经元的抽象和模拟. 抽象: 从数学角度而言 模拟: 神经元的结构和功能 人工神经元模型 输入总和 输出 作用(活化):阈值函数,S函数 把若干个输入加权求和,并将这个加权和非线性处理后输出。 ∑ x1 x2 xN θ fu.. . y w1 wN w2 )(ufy = ∑ = −= N i ii xwu 1 θ 6.2.1 神经元模型 8 一、Hebb学习规则: ™ Hebb学习规则是最著名的学习规则,是为了纪念神经心理 学家Hebb(1949)而命名的。 ™ Hebb学习规则的基本思想是: 如果神经元 接收来自另一神经元 的输出,则当这两个神 经元同时兴奋时,从 到 的权值 就得到加强。 具体到前述的神经元模型,可以将Hebb规则现为如下的算 法形式: 公式中 是对第i个权值的修正值, 是控制学习速度的系 数。 iu ju ju iu ijw i iw yxηΔ = iwΔ η 6.2.2 学习规则 9 二、纠错学习(误差修正学习规则): ™基本思想: 设某神经网络的输出层中的一个神经元i, 实际输出 期望输出 (目标输出) 实际输出与期望输出之间存在着误差 调整突触权值,使误差信号减少。 代价函数 反复调整突触权值使代价函数达到最小或使系统达到 一个稳定状态,就完成了学习过程。 ( )iy n ( )d n ( ) ( ) ( )ie n d n y n= − ( )e n 21( ) ( ) 2 E n e n= 10 ™ δ学习规则的步骤: (1).选择 一组初始权值 (2).计算某一输入模式对应期望输出与实际输出 的误差 (3).更新权值 (4).返回步骤(2),直到对所有训练模式,网络输出 都满足 )()]([)()1( txtydtwtw ijjjiji −η+=+ 11 ™例:通过学习用2输入M-P模型神经元, 实现下列功能: x1: 0 0 1 1 x2: 0 1 0 1 d: 1 1 0 0 ™过程: 假设:初始权值w1=0.2, w2=-0.5 , θ=0.1; 计算某一输入模式对应的实际输出模式; 12 M-P模型的数学描述: 输入总和为: A=w1*x1+w2*x2- =0.2*x1 - 0.5*x2 - 0.1 对应四组输入模式 输出y分别为:0 0 1 0 修正:δ学习算法 η(0,1) 学习因子 假设取0.1 也可如下: ij n j jii ii xwA Afy θ−= ⎩⎨ ⎧== ∑ = 1 0 1 )( )|)()()((| 2 1 2 1 αθη +−= ∑ = ttxtw i i i 13 模式对 0 0 1 0)1](01[1.01.0))0(()0()1( 5.0)1( 2.00*]01[1.02.0))0(()0()1( 0 2 111 =−−+=−+= −= =−+=−+= xyd w xydww jj jj ηθθ η 输入模式 0 1 对应的实际输出为 0 1.0)1](01[1.00)2( 4.01*)01(1.05.0)2( 2.00*]01[1.02.0))0(()1()2( 2 111 −=−−+= −=−+−= =−+=−+= θ η w xydww jj 重复这个过程直到所有模式都满足要求,学习结束 学习:权值修正的过程 14 ™ 网络拓扑是指网络的结构以及神经元之间的联接方式。 分层网络:将神经元按功能分为若干层 输入层:接收外部输入模式,传递给隐层 隐层:内部处理 输出层:产生输出模式 相互连接型网络(反馈网络): 任意两个神经元之间都是可达的。 6.2.3 网络拓扑 15 ™ 网络的学习算法是以满足网络所需的性能为目标,决定 联接各神经元的初始权值及在训练中调整权值的方法。 ™ 学习方法可分为监督学习与非监督学习。 监督学习(有导师学习):训练时,同时向网络提供输 入模式及输出的样板模式(导师),在不断输入不同训 练模式的同时调整权值,从而使输出模式尽量接近样板 模式; 非监督学习(无导师学习):它是一种自动聚类过程, 通过输入训练模式的加入,不断调整权值以使输出能够 反映输入训练模式的分布特点。 6.2.4 网络的学习算法 16 6.3 几种神经网络模型及其算法 ™ 由于人在识别速度及判别能力方面常超过一般典型 的计算机所作的识别,故人们有兴趣研讨与神经网 络有关的识别机理,希望能有所借鉴或启发。 ™ 自1958年,F.Resenblatt提出Perceptron(感知器) 模型以来,研究者已经提出了近百个神经网络模型。 ™ 主要介绍: 感知机模型 多层前向网络 自组织映射网络 17 ™ 一个两层前馈神经网络,一层为输入层,另一层具有计算单 元,可以通过监督学习建立模式判别的能力。 输入层单元: 接收外部输入模式, 并传给输出层单元。 输出层单元: 对输入模式处理, 产生输出模式。 输入输出为二进制,两层间全互连,权值可调,有导师学习。 最简单的感知机:M--P模型(只有一个输出神经元) 6.3.1 感知器模型 18 ™ 一个输出 神经元为例 可将外部输入分为两类。 决策方程: 若有N 个输入,为超平面;若为2个输入,直线。 ∑ = −= N i ii xwu 1 θ 6.3.1 感知器模型 )(ufy = ⎩⎨ ⎧ <− ≥+== 0 1 0 1 )sgn( u u uy 0)()( 1 =−∑ = θtxtwN i ii 19 ™ 如何实现线性分类? 学习的目标是通过改变权值使神经网络由给定的输入得到 给定的输出。 有导师学习:通过训练集中的模式对训练网络达到学习的目 的。 训练集:输入输出模式对。 训练规则: 误差修正(纠错)规则 过程:不断用训练集中的每个模式对训练网络。 20 ™ 学习算法: 设理想的输出为: 实际的输出为: 1) 设置变量和参量: 2)初始化权值 和阈值; 3)对于一组输入样本, 指定期望输出; 4)计算实际输出; 5)调整感知器的权值向量: 6)判断是否满足条件,若满足学习结束,若不满足转 到 第三步重新执行。 T mdddD ),,,( 21 "= )()]()([)()1( txtytdtwtw ijjijij −+=+ η 1 2( , ,..., ) T mY y y y= 21 ™ 多层前向网络(多层感知器) 由一个输入层,一个或以上隐藏层和一个输出层组成。所 有的连接均为相邻层之间的节点的连接,同层之间不连接。 输入层:接收外部输入模式, 传递给隐层; 隐层:内部处理, S型 输出层:产生输出模式,S型 ™ 功能: 实现任意n维到m维的映射; 实现非线性可分的分类问题。 6.3.2 多层前向网络与BP算法 22 ™ 学习算法 BP算法: 前向网络提出的误差后向传播算法 BP学习过程:正向传播和反向传播组成 正向传播:对一给定的输入模式,由输入层传到隐层单 元,经隐层单元的逐层处理后,传到输出层产生输出模式。 若输出层不能得到期望的输出,转入反向传播。 反向传播:将误差信号延原来的连接通路返回,通过修改 各神经元的权值,使得误差信号减小。 23 ™ BP算法步骤: l) 设置初始权值及阈值,即设所有的权值及节点的阈 值为一个小的随机数。 2) 给定新的输入值及相应的理想输出信号。 3) 计算当输入通过网络时的实际输出值。 4) 修正每个权值和阀值。从输出节点开始逐步向前递 推,直到第一层。 5)转移到第2步重复进行,直到满足条件为止。 ))exp(1/(1)( 1 jjj N i jiijj uufyxwu −+==−= ∑ = θ ijijij xtwtw ησ+=+ )()1( ⎪⎩ ⎪⎨ ⎧ − −− = ∑ k jkkjj jjjj j wyy ydyy 隐层 输出层 )1( ))(1( σσ j 24 例:函数逼近 (非线性曲线拟合) (1)在控制中往往需要产生非线性输入输出曲线。 如:机械臂取物问题 已知一个机械臂取物的轨迹,根据这个轨迹可以计 算出臂关节的角度θ,按照机械臂的θ要求应该反演 计算出驱动马达的力 y=f(θ) 非线性, 非常复杂的数学计算, 动力学模型。 用BP网络实现 25 (2)BP网络实现 学习:样本(训练集) 在实际机器人的运动中取出 经学习后就可以得到精度较高的曲线拟合 用BP网络可以代替轨迹跟踪中的复杂计算。 (3)网络结构 输入:一个神经元。 输出:一个神经元 隐层:三个经验公式 (4)拟合任何曲线 (5)拟和曲面 ),(),(),,( 2211 nn yyy θθθ " 26 27 ™ 自组织特征映射(Self Organization Feature Mapping, SOFM)模型: Kohonen提出(1982),是基于脑科学研究中得 到的认识提出的。 ™ 两种生物结构和现象: 人脑中处于空间上不同区域的神经细胞分工有所不同, 如语言、视觉、运动控制,每个功能都是由大脑的局部区 域完成的。 在实际神经网络中,存在一种 侧抑制现象。一些(个)神经细胞 兴奋后,通过它的分支会对周围其 它神经细胞产生抑制,这种侧抑制 在人的视网膜中存在。 6.3.3 自组织特征映射模型 28 ™ 自组织特征映射(SOFM)模型: Kohonen提出 ™ 网络模型 第一层:输入层 由接收输入模式的处理单元构成。 第二层:竞争层 竞争单元争相响应输入模式,胜 者表示输入模式的所属类别。 输入单元到竞争单元的连接为全 互连的。 ™ 学习:无导师学习。在训练过程中,它无需规定所要求 的输出(即导师),只要足够的输入矢量加入以后,输 入层和输出层之间的连接会自动形成聚类中心。 6.3.3 自组织特征映射模型 29 6.3.3 自组织特征映射模型 ™ 学习算法: 1.基本原理 (无导师学习) 竞争、合作和更新 1)竞争:计算神经元的输入总和 竞争原则:具有最高输入总和的单元获胜, 2)合作过程: 确定获胜神经元的加强中心(邻域)。 3)更新过程(修正): 只修正获胜神经元及邻域的权值。 获胜单元的权值越来越接近于输入模式。 i ij j i j u w x W X= = ⋅∑ ( 1) ( ) ( )( ( )) 0,1,2, ,j j jW n W n n X W n n Nη+ = + − = " 30 ™ 2. 算法步骤: 1)设置初始权值,初始学习因子,初始邻域宽度。 2)输入模式 3)竞争:第j个神经元输入总和 最大 或欧式(海明)距离 最小。 确定获胜单元 和邻域宽度d 4)修正: 获胜单元及邻域越来越接近输入模式。 η(t):获胜单元大于邻域且随时间变化而减小 d:随时间变化的,次数增多,逐渐减小。 5)返回步骤(2),重复该过程直到满足结束条件为止。 )(,),(),( 21 txtxtx n" ∑= i ijij txtws )()( ∑ −= 2))()(( twtxd jiij ),( cc yx ))()()(()()1( twtxttwtw jiijiji −η+=+ 31 6.4 用神经网络进行模式识别的典型做法 ™ 在各种人工神经网络模型中,在模式识别中应用最多 的也是最成功的当数多层前馈网络,其中又以采用BP 学习算法的多层前向网络(习惯上也简称为BP网络) 为代表。由于网络采用的是监督学习方式进行训练, 因此只能用于监督模式识别问题。 ™ 在利用人工神经网络模型进行模式识别时,确定网络 模型结构。 输入层神经元个数:由具体应用决定 隐层数和隐层神经元个数:问题的复杂度 输出层神经元个数:由具体应用决定, 但有不同方式。 32 ™ 多输出型,即对于多个类别,只有一个人工神经网络模 型,而这个网络有多个输出节点,每一个输出节点对应一 个类别。网络的结构是输入节点数对应于样点数或者样本 的特征维数,而输出层的节点数等于类别数。 ™ 在训练阶段,如果用于训练的输入训练样本的类别标号是 i,则训练时设第i个节点的期望输出设为1, 而其余输出节 点期望输出均为0。并且对于这个人工神经网络模型,利用 每个类别的训练数据,对其进行有监督训练。 ™ 在识别阶段,当一个未知类别的样本作用到输入端时,考 查各输出节点的输出,并将这个样本的类别判定为与输出 值最大的那个节点对应的类别。 6.4.1 多输出型 33 ™ 单输出型,即一个人工神经网络模型只有一个输出。很多实 验表明,在多输出方式中,由于网络要同时适应所有类别, 势必需要更多的隐层节点,而且学习过程往往收敛较慢,此 时可以采用多个多输入单输出形式的网络,让每个网络只完 成识别两类分类,即判断样本是否属于某个类别。 ™ 训练阶段,为每个类建立一个多输入单输出网络(网络的隐 层节点数可以不同)。对每一类进行分别训练,将属于这一 类的样本的期望输出设为1,而把属于其他类的样本的期望 输出设为0。 ™ 在识别阶段,将未知类别的样本输入到每一个网络,如果某 个网络的输出接近1(或大于某个阈值,比如0.5),则判断 该样本属于这一类;而如果有多个网络的输出均大于阈值, 则或者将类别判断为具有最大输出的那一类,或者做出拒 绝;当所有网络的输出均小于阈值时也可采取类似的决策方 法。 6.4.2 单输出型 34 1.声控打字机 语音识别问题 —— 实质是实时地对音素进行分类 语音识别 —— 复杂模式识别 Kohonen 把SOM成功地用于语音识别上 2.原理示意图(芬兰语) 滤 波 器 A/D F F T 归 一 化 知识库文字处理机 6.5 人工神经网络模型的应用举例 35 3.预处理 (非常重要) 利用的数字信号处理技术从语音输入中提 取因素频谱数据,作为神经网络的输入模式, 进行分类。 麦克风:语音输入 滤波器:5.3KHz的低通滤波器 A/D转换:采样速率10.03KHz 12位 FFT:每隔9.83秒对从A/D转换器的数据进行 256点 归一化处理:使之具有一个固定的长度 36 4. 神经网络:(SOM) 输入:音素频谱分量的瞬间功率 训练:用基本音素训练,使网络中的节点对音素数据敏 感,分类。对形成的类别,需进行标记。 在KoHonen的实验中,每个音素用50个样本来训练 5. 后处理: 把识别出来的语音转换成正确的拼写形式。 规则库:含15000--20000条规则 解决同一音素在不同上下文发音不同问题 输出到文字处理机 37 6.硬件实现 带有两块DSP协处理器的IBM--PC/AT 一块DSP负责语音信号预处理 另一块DSP实现特征图分类问题 后处理由PC机完成 实时性:可以接近实际的说话速度 7.性能 系统的准确率较高:92%--97% 词汇不受限制情况下,打印出字符与口授准确率。 系统对新用户的适应能力较强 新说话者对网络进行训练,100个单词,10分钟 幻灯片编号 1 6.1 人工神经网络简介 幻灯片编号 3 6.2 人工神经网络的构成 6.2.1 神经元模型 6.2.1 神经元模型 幻灯片编号 7 幻灯片编号 8 幻灯片编号 9 幻灯片编号 10 幻灯片编号 11 幻灯片编号 12 �模式对 0 0 1 幻灯片编号 14 幻灯片编号 15 6.3 几种神经网络模型及其算法 幻灯片编号 17 幻灯片编号 18 幻灯片编号 19 幻灯片编号 20 幻灯片编号 21 幻灯片编号 22 幻灯片编号 23 幻灯片编号 24 幻灯片编号 25 幻灯片编号 26 幻灯片编号 27 幻灯片编号 28 幻灯片编号 29 幻灯片编号 30 6.4 用神经网络进行模式识别的典型做法 幻灯片编号 32 幻灯片编号 33 幻灯片编号 34 幻灯片编号 35 幻灯片编号 36 幻灯片编号 37
/
本文档为【语音信号处理6】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索