为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > 基于证据理论和语义细胞模型的多标签音乐情感识别的研究

基于证据理论和语义细胞模型的多标签音乐情感识别的研究

2017-09-26 42页 doc 74KB 24阅读

用户头像

is_633808

暂无简介

举报
基于证据理论和语义细胞模型的多标签音乐情感识别的研究基于证据理论和语义细胞模型的多标签音乐情感识别的研究 基于证据理论和语义细胞模型的多标签音乐情感识别 的研究 Submi to ADissertation ttedZhejiang Universi forthe of ty Degree MasterofEngineering ? 1 TITLE:ResearchonMulti-Labe MusiC Emotion Based on 1―、 ? ',T、1 1 1he and 匕V1dence OrV 1 nInformat。l0rmat10nC...
基于证据理论和语义细胞模型的多标签音乐情感识别的研究
基于证据理论和语义细胞模型的多标签音乐情感识别的研究 基于证据理论和语义细胞模型的多标签音乐情感识别 的研究 Submi to ADissertation ttedZhejiang Universi forthe of ty Degree MasterofEngineering ? 1 TITLE:ResearchonMulti-Labe MusiC Emotion Based on 1―、 ? ',T、1 1 1he and 匕V1dence OrV 1 nInformat。l0rmat10nCee11 Mode Author: ? ', 1 m 一 S0r: lang Supervl YongcnUan ication A乜乜1 Technolog―y( Subject:Computer and Col Science lege: Computer Technolog―y SubMittedDate: 2012一01―02 ,, 涨嬲 浙江大学研究生学位独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研 究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得浙堑太堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示谢意。 学位敝作者签名(蒡凌秽中签字吼川乙年矿 月步日 学位论文版权使用授权书 本学位论文作者完全了解浙江太堂有权保留并向国家有关部门或机构 送交本论文的复印件和磁盘,允许论文被查阅和借阅。本人授权逝江太堂可 以将学位论文的全部或部分内容编入有关数据库进行检索和传播,可以采用影 印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后适用本授权书 学位论文作者签名: 压反旎讳 导师签名: 签字日期:沙I乙年 ??j月。厂日 签字日期:加f2,年 日 浙江大学硕士学位论文 摘要 摘要 本文关注多标签音乐情感的识别,对多标签音乐情感识别进行建模并评估其 识别性能。 本文首先对音乐情感空间表示和多标签进行描述,选择一个合适的数据集来 作为实验数据集。接着,用语义细胞模型进行建模求出初始信任分配函数,最后 用D-S证据理论进行多标签信息的融合,实现最终的情感标签识别。本文在最后 给出了实验结果性能和实验结果数据,并和不通过语义细胞求mass函 数的实验结果进行对比,论证了在使用证据理论来进行多标签音乐情感识别时结 合语义细胞来求mass函数能获得较好的实验结果。 本文还用实验证明了在进行多标签音乐情感识别时,可以通过主成分分析来 降低音乐特征的维度。 本论文是第一次尝试结合语义细胞给出初始信任分配函数,并用证据 理论进 行证据融合来对多标签音乐情感进行识别,以及在有效使用此方法的基础上 通过 主成分分析来降低音乐特征的维度。 关键词: 音乐情感,多标签,语义细胞,证据理论 浙江大学硕士学位论文 Abstraet Abstract emotion itand This focusesonmulti-labelmusic recognition,models paper assessesthe of performancerecognition( andthemulti-label This introducesthemusicemotional paper space music, and data data useInformation choosesan set淞the set(Then,we appropriate experimental tO themass useD??SevidencetO CellModel function,and theory produce finally achievetheultimateidentificationofthe themulti―labelinformationand integrate criterionofthe and musicemotion(This outtheevaluation performance papergives theresultofour theresult、析n1not informationcells experiment,andcompares using tO themass that evidencetO using theoryrecognize compute function,proves musicemotioncombined、析廿lInformationCellModeltO mass multi(1abel produce functionhasbetterresults( This also that we啪墩PrincipalComponent paperexperimentallyproved do emotion tOreducethedimensionofmusicfeatureswhenthemulti―label Analysis recognition( first CellModeltO mass This forthe time tOu?Information give paper attempts this and themulti-labelevidencesevidence on functions theory(Based integrate using usedtOreducethe wealso Outthat carlbe method poim PrincipalComponentAnalysis dimensionsofmusicfeatures( evidence Cell,D-S theory label,Information Keywords:musicemotion,multiple 浙江大学硕士学位论文 目录 目录 摘 要„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„ „„„„„„„„„(i Abstract„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„ „„„„„„„„„„ii 第1章绪论„„„„„„„„„„„„„„„„„„„„„„„„„„„„„1 1(1研究背 景„„„„„„„„„„„„„„„„„„„„„„„„„„„l 1(2研究现 状„„„„„„„„„„„„„„„„„„„„„„„„„„„2 1(3论文结 构„„„„„„„„„„„„„„„„„„„„„„„„„„(6 1(4本章小结 _„„„„„„„„„„„„„„„„„„„„„„„„„(7 第2章情感空间的表示和特征的提 取„„„„„„„„„„„„„„„„„(8 2(1音乐情感背 景„„„„„„„„„„„„„„„„„„„„„„„„8 2(2音乐情感表 示„„„„„„„„„„„„„„„„„„„„„„„„8 2(2(1Thayer二维情感模型„„„„„„„„„„„„„„„„„„„9 2(2(2 2(3多标签„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„ „一1l 2(3(1多标签背景„„„„„„„„„„„„„„„„„„„„„„„11 2(3(2基于多标签分类„„„„„„„„„„„„„„„„„„„„„„(1l 2(4Emotions数据集介绍„„„„„„„„„„„„„„„„„„„„„11 2(4(1音乐素材的来源„„„„„„„„„„„„„„„„„„„„„12 2(4(2音乐特征的提取„„„„„„„„„„„„„„„„„„„„„„12 2(4(3数据集的建立„„„„„„„„„„„„„„„„„„„„„„„13 2(5本章小结„„„„„„„„„„„„„„„„„„„„„„„„„„15 6 第3章主成分分析降维处 理„„„„„„„„„„„„„„„„„„„„„1 3(1主成分分析简 述„„„„„„„„„„„„„„„„„„„„„„„16 3(2主成分分析用于音乐特征的降 维„„„„„„„„„„„„„„„„18 3(3本章小 结„„„„„„„„„„„„„„„„„„„„„„„„„„(20 第4章语义细胞模 型„„„„„„„„„„„„„„„„„„„„„„„„。21 4(1语义细胞模型概 述„„„„„„„„„„„„„„„„„„„„„„„2l 4(2语义细胞模型用于多标签音乐情感识 别„„„„„„„„„„„„„23 4(3本章小 结„„„„„„„„„„„„„„„„„„„„„„„„„„(23 浙江大学硕士学位论文 目录 第5章证据理 论„„„„„„„„„„„„„„„„„„„„„„„„„„24 5(1证据理论概 述„„„„„„„„„„„„„„„„„„„„„„„„24 5(2多值变 量„„„„„„„„„„„„„„„„„„„„„„„„„„24 5(3证据理论基本定 义„„„„„„„„„„„„„„„„„„„„„„24 5(4多值变量的信任分配函 数„„„„„„„„„„„„„„„„„„„26 5(4(1框架 C Q ,s „„„„„„„„„„„„„„„„„„„26 5(5证据理论应用与标签分 类„„„„„„„„„„„„„„„„„„„28 5(5(1单标签KNN分类„„„„„„„„„„„„„„„„„„„„((29 5(5(2多标签KNN分类„„„„„„„„„„„„„„„„„„„„。30 5(6本章小 结„„„„„„„„„„„„„„„„„„„„„„„„„((30 第6章实验过 程„„„„„„„„„„„„„„„„„„„„„„„„„。32 6(1实验流 程„„„„„„„„„„„„„„„„„„„„„„„„„„(32 6(2实验数据 集„„„„„„„„„„„„„„„„„„„„„„„„„34 6(3主成分分析降 维„„„„„„„„„„„„„„„„„„„„„„一34 6(4基于KNN从训练集选取样本„„„„„„„„„„„„„„„„„一34 6(5产生不精确标签的处 理„„„„„„„„„„„„„„„„„„„„35 6(6基于语义细胞模型,计算初始信任分配函数„„„„„„„„„„。37 6(7证据融合„„„„„„„„„„„„„„„„„„„„„„„„„。40 6(7(1证据融合流程„„„„„„„„„„„„„„„„„„„„„„40 6(7(2证据融合示例„„„„„„„„„„„„„„„„„„„„„„42 6(8结果评价标 准„„„„„„„„„„„„„„„„„„„„„„„一46 6(9降维后的实验结 果„„„„„„„„„„„„„„„„„„„„„„„„。46 6(10本章小 结„„„„„„„„„„„„„„„„„„„„„„„„„((46 第7章总结和展 望„„„„„„„„„„„„„„„„„„„„„„„„„46 7(1总结„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„((46 7(2下一步的研究计 划„„„„„„„„„„„„„„„„„„„„„„46 参考文 献„„„„„„„„„„„„„„„„„„„„„„„„„„„„„(46 1改谢„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„(―I-6 ? 浙江大学硕士学位论文 罔目录 图目录 图2(1 Thayer情感模 型„„„„„„„„„„„„„„„„„„„„„„„9 图2(2 图2(3emotions数据集建立流程„„„„„„„„„„„„„„„„„„(14 图3(1主成分分析几何意义„„„„„„„„„„„„„„„„„„„„18 图4(1近邻域函数示意图„„„„„„„„„„„„„„„„„„„„„22 图5(1Q的两个子集 虚线 包含集合A但和集合B不相交。所有这些子 集记为矽 彳,B 。„„„„„„„„„„„„„„„„„„„„„„((27 图6(1实验流 程„„„„„„„„„„„„„„„„„„„„„„„„„(33 图6(2delta函数图„„„„„„„„„„„„„„„„„„„„„„„„„„„„„„(38 l 图6(3证据融合流 程„„„„„„„„„„„„„„„„„„„„„„„(4 图6(4不降维时平均正确 率„„„„„„„„„„„„„„„„„„„„„46 图6(5降维后平均正确 率„„„„„„„„„„„„„„„„„„„„„(46 II! 浙江大学硕十学位论文 表目录 表目录 表2(1情感类的描 述„„„„„„„„„„„„„„„„„„„„„„„13 表6(125个最近邻者经过不精确标签处理后的标签„„„„„„„„„((37 表6(2通过语义细胞求出的25个最近邻者的mass函数值„„„„„„„39 表6(3,,ll和m:的连接和„„„„„„„„„„„„„„„„„„„„„42 2S 表6(4计算0朋P„„„„„„„„„„„„„„„„„„„„„„„„。44 tll P 表6(5鱼g, 以B „„„„„„„„„„„„„„„„„„„„„„„。46 表6(6每g, 4,彳1 „„„„„„„„„„„„„„„„„„„„„„„„46 表6(7不降维时的实验结 果„„„„„„„„„„„„„„„„„„„„46 表6(8降维后的正确 率„„„„„„„„„„„„„„„„„„„„„„46 IV 浙江大学硕士学位论文 第1章绪论 第1章绪论 1(1研究背景 对于音乐这个词,大家都再熟悉不过了。只要是听力正常的人,谁没有听过 音乐的各种曼妙作用,以及为了让音乐发挥出期冀的作用而对音乐音乐呢? 如何 进行分类选择的研究,也是如今我们所处的这个多元化社会中,很多人乐此不疲 研究的对象。 《礼记》说:“凡三王教世子必以礼乐,乐所以修内也,礼所以修外也。礼乐 交错于中,发行于外,事故起成也怿。"法国作家雨果说过:“音乐是开启人 类智 慧宝库的钥匙。一古代《晋书??乐志》说:“是以闻其宫声、使人温良而宽大:闻 其商声,使人方廉而好义:闻其角声,使人倾隐而仁爱:闻其微声,使人乐养而好使: 闻其羽声,使人恭俭而好礼。一可见,音乐在人的修养、智慧等方面的形成中有着 不可磨灭的作用,而选择听不同的音乐,则会产生不同方面的教养效果。而在现 代的培训当中,人们发现如此来选择音乐能产生好的培训效果:开场音乐要以热 烈激情为主,比如《我真的很不错》、《真心英雄》等;中场音乐以轻柔舒缓为主, 比如钢琴曲、古筝曲、小提琴曲等;收场音乐以励志、行动力为主,比如《日出 东方》、《大家一起来》、《生命之杯》等。 我们对音乐的选择都是最终为了满足某一类情感,我们不管是根据乐器还是 节奏,根据作曲家名字还是音乐名称,来选择音乐,我们最本质的还是为了选出 我们心目中期待的那种情感的音乐。如果我们用传统的方式来选出音乐,那么我 们得从我们的记忆中来搜索,来寻找适合的音乐,才能播放我们想要的音乐。可 是,一般储存人脑中的音乐没有在互联网中的多,如果恰巧你平时听的音乐又不 是特别多,那么你可能绞尽了脑汁也无法走到足够的合适的音乐。 于是,需求就出来了,在计算机产业如此发达的今天,我们能否借助电脑来 选出我们期冀的那类情感的音乐呢?这种需求,就是本文中我们试图满足的需 求。对音乐情感信息的研究,并且根据音乐情感来进行分类,无疑为音乐更加有 浙江大学硕士学位论文 第l章绪论 效的组合以及合理快捷的查找提供了更多的选择。基于人工智能的方法,来对音 乐情感识别进行研究,就是适应这一需求的技术。 而在对音乐情感进行自动识别的研究时,我们需要考虑的因素有哪些呢? 首先,我们需要有音乐库来进行下一步的实验。音乐库的来源或者自己建立, 或者使用开源的数据库。如果自己建立数据库,就要涉及原始音乐的选择, 音乐 的分割,音乐特征的提取,音乐情感的标注等问题。在原始音乐的选择上,我们 要考虑音乐的风格、音乐的流派,以及音乐的文化背景等问题。在音乐的分割问 题上,我们要考虑如何分割音乐最有效。在音乐特征的提取上,我们要考虑哪些 特征值能最好的表征音乐,比如用多少维的节奏特征,用多少维的音色特征等。 在音乐情感标注的问题上,我们要考虑用什么情感模型来建模音乐的情感,要考 虑是通过人工标注音乐情感呢还是用其它的方式来标注。如果人工来标注音乐情 感,那么如何避免个人主观上带来的情感认知不一致性等。当然,如果选择使用 开源数据库,也需要考虑以上各个因素才能选择合适的开源数据库。 在有了音乐库之后,接着我们需要考虑如何对音乐情感识别进行建模。是用 传统的神经网络、支持向量机等方法建模呢,还是自己提出一个更有效的方法来 建模呢?我们知道,用传统的方法对单标签音乐情感进行识别,已经有不少的研 究结果。然而,已经有不少人对单标签标注音乐情感提出质疑,认为多标签的音 乐情感更符合人们的情感认知和现实生活的需求。这就需要我们考虑如何有效的 对多标签音乐情感识别进行建模,从而对多标签音乐情感进行高正确率的识别。 1(2研究现状 音乐情感的自动识别,就是对音乐包含的情感内涵进行自动识别,前提是有 对音乐进行合理分类的模型。现有的分类模型是文本关键字模型以及声学参数模 型。文本关键字模型就是选取一些关键字作为代表来识别音乐情感,声学参数模 型就是用物理的声学参数特征来表示音乐从而去识别音乐情感。它们的代表分别 是,Hevner情感环模型和Thayer二维情感模型。在进行音乐情感标注时,文献 2 浙江大学硕七学位论文 第1章绪论 residual模型来适应个体主观情感感知上的差异。 如何对音乐进行自动分割和摘要也是研究工作的一个部分。目前最常用的方 法是用音乐当中的重复片段来代表整个音乐。现在普遍采用的分割方法是用固定 的时间长度来分割,但是这种方法的一个缺点是,可能会把一个完整的乐句分割 到不同的片段里去。文献【34】提出了基于音调和重复结构来划分出音乐片段的方 法。文献【5叫基于MP3格式音乐的研究,提出了一种方法来动态提取乐句以及进行 自动摘要。 声纹特征提取方面,目前用的最多的就是基于人耳听觉特性的语音特征Mel 频率倒谱系数 Melfrequencycepstrum 在音乐情感识别中不同的特征提取方法。Taro等人喁】在研究语音情感识别时,不 仅使用了韵律特征参数,还加入了音质特征参数。实验结果表明,把这两种特征 参数结合起来,能有效提高情感识别的速度和识别率。 从目前音乐情感识别的研究现状来看,音乐情感识别中的一个核心问题就是 找到合适的识别模型。当前模式识别方法归类【9】如下:动态规划 DP [10l、线性 和隐马尔科夫模型 HMM 【14】等,都已经在音乐情感识别领域被广泛使用。在文 献【15】中,一种基于贝叶斯网络的方法被提出来用于识别音乐情感。在文献1161中, 用BP神经网络来进行音乐分类。在文献【171中,用SVM 支持向量机 来训 练提取 的特征。除此之外,文献f协19】基于西方音乐心理学基础,提出了GMM音乐情感识 别框架,识别音乐情感检测。文献【20l研究了声学特征在音乐情感识别中的应用, 对两个音乐样本采用欧式距离,用最近邻方法找出与某一音乐样本最相似的样 本。将音乐情感识别看作是一个多类分类问题,再通过一系列分解转化成两类分 类问题,最后通过一系列支持向量机分类器的训练来对音乐情感进行识别。文献 【21l将音乐情感识别看做是一个回归问题,把每个音乐样本变成AV空间上的一个 点,通过用户来指定AV空间上的一个点来获取音乐样本的情感。同时还应用回 归来识别音乐情感的变化。文献122]采用了神经网络模型来识别情感。该神经网络 由8个子网组成,每个子网处理对应的一种情感类别。用这种子网结构的好处是, 3 浙江大学硕士学位论文 第1章绪论 有很好的扩展性,在增加情感类别时不需要重新训练整个网络。通过实验发现, 该识别系统很容易识别在情感识别过程中加入的负面情感,但对于积极的情感, 该情感识别系统不是那么容易识别。文献【23】使用了三种不同分类器来识别情感, Neighbor 法,和最大似然贝叶斯分类 法。 分别是:核回归法、KNN k-Nearest 对高兴、悲伤、害怕和愤怒等四类情感进行了识别实验,取得了较好的识别效果。 文献【24】在实验中比较了几类识别器模型对七百多语音短句进行情感识别的效果, 都取得了较好的效果。其中情感分五类,分别是:高兴、悲伤、害怕、愤怒和自 然。识别中选取的特征参数如下:基频信号、两个共振峰值,以及短时能量等。 文献【25】利用KNN k-Nearest Neighbor 方法对四类情感进行了识别,分别是: 高兴、愤怒、悲痛和自然。比较了一些特征参数,发现在提取新的特征参数 的基 础上,再对KNN方法进行相应的改进,可以减少情感识别时所需的特征参数和相 关训练样本,可以大大提高识别的效果。文献【26】采用了对数频率能量系数和隐马 尔科夫模型相结合的方法,把输入的信号分成16ms的相互重叠窗口,算出语音 信号的短时能量,再用矢量量化器对能量系数进行编码处理,从而识别出语音信 Vector Neighbor ,以及SVM SupportMachine支持向量机 等方法对语音情 感识别进行了研究。其中使用线性判别分类法就是使用了带高斯概率分布的参 数,在确定了参数的均值和方差后,再利用贝叶斯法则来计算最大后验概率。 使 用KNN是通过计算K邻域的平均值以及每类情感信息的局部后验概率。使用SVM 就是进行线性映射变换,把输入的向量映射到高维的空间,然后进行计算。文献 【28】通过大量实验表明,KNN、SVM以及RBF神经网络等方法能在语音情感识别时取 得令人满意的效果,而其中采用Ada―Boosted决策树的方法取得的效果最好。 从目前音乐情感识别领域的研究来看,研究人员大部分都是采用了相关的一 些模式识别的方法来进行情感识别的建模。文献【29】对最近几年语音情感识别的实 验结果进行了对比和分析比较,发现各研究者之间实验效果差异比较明显。该领 域的研究目前还处于起步阶段,相关的技术也不够成熟,许多地方还有待尝试和 提高,还有很大的发展潜力。 4 浙江大学硕七学位论文 第1章绪论 总结当前的研究成果,主要特点如下: 1 关于特征参数,只有少数研究者关注了音质特征和频域特征,大 多数只关注了韵律学特征。而且研究者基本上是以情感语义的整体 统计特征为主,较少利用时序特征。 2 公用的音乐情感库较少,实验用的音乐样本大多是根据各 自的要 求录制的。 3 大多数研究都是针对特定文化背景的音乐来研究,不同文化背景 的音乐在情感建模的时候存在较大差异。 4 通常采用传统的模式识别的方法对事先确定的情感状态进行识 别和分类。由于在音乐情感建模上缺乏合理性和针对性,这类方法 的识别效果存在一定程度上的局限 性。 „( 5 音乐情感识别的实验结果存在局限性和争议性。 6 基本上是基于单标签音乐情感进行研究,涉及多标签音乐情感研 究的并不多。 目前存在的问题有: 1 已经有不少研究成果基于单标签音乐情感的识别。然而,越来越 多的人意识到并认为多标签的音乐情感更符合人们的情感认知和现 实生活的需求。这就需要我们考虑如何有效的对多标签音乐情感识 别进行建模。本文正是关注于多标签音乐情感的识别,选取合适的 音乐情感模型从而选取合适的音乐情感库来进行我们的识别研究。 2 音乐情感识别的高正确率一直是我们追求的目标。在多标签音乐 情感识别方面,文献【30】提出了一种基于噪声的ML―l NN计算方法,识 别正确率约为45,,并指出用他的方法出来的实验结果比现在大多数 的多标签识别方法出来的结果好。那么有没有更好的方法来取得更 -S证据理论的基础上提 高的识别正确率呢?文献【3ll则在D 出了一种 框架,并对多标签进行不精确处理,实验结果的正确率约为48,,论 证了在使用同一个音乐数据库时,用他的方法出来的实验结果要比 S 浙江大学硕士学位论文 第1章绪论 文献【30】中的方法出来的结果好。本文将在文献【3lJ提出来的框架的基 础上,第一次尝试结合语义细胞【32-3刀给出mass函数,并且在使用同 一个音乐数据库时,取得比文献【3u更好的实验结果。 (3论文结构 1 本论文主要由以下几个方面的研究内容组成: ?? 音乐情感空间的表示和特征的提取 基于声学参数的音乐情感空间的表示,比较常见的有Thayer[38】的V-A模型, 横轴表示压力程度,纵轴表示能量程度,这样总共有4个分类。 Tel 统,两个维度分别是 不 高兴和 不 参与【391。这样,就大致可以把音乐分为 8个类。本文由于采用了证据理论,维度不宣过多。所以本文使用的数据库,在 提取主要基于音色和节奏。详见第二章。 ? 音乐特征的降维处理 音乐的特征空间多为高维空间,比如本论文实验中将要使用的音乐集的特征 为72维,通过主成分分析可以把音乐的高维特征空间映射到低维特征空间,从 而实现复杂度的降低。主成分分析详见第三章。 ? 音乐标签初始信任分配函数的计算 语义细胞【3玉371是用来表示模糊概念的模型,而音乐情感恰恰是一 个模糊概念 问题。所以本文基于语义细胞来计算每一组标签的初始信任分配函数,也称为 mass函数。详见第四章。 ? 多标签音乐样本的标签融合 证据理论140】是结合多值变量,用来表示不确定形式信息的一种新的形式。证 据理论通过引入信任函数,似然函数,很好的表示不确定概念,同时它推理机制 比较简单,有比较接近人类的思维习惯。本文运用证据理论知识对多标签进行证 据融合。详见第五章。 6 浙江大学硕士学位论文 第l章绪论 ? 实验 在实验部分,我们先比较了证据理论结合语义细胞给出腿ss函数的实验效 果和证据理论不结合语义细胞给出IIIass函数的实验效果,再比较了不对音乐特 征进行降维和通过主成分分析对音乐特征进行降维的实验效果。详见第六章。 1(4本章小结 本章是本论文的绪论部分。本章首先介绍了音乐情感识别的研究背景,指出 用计算机对多标签音乐情感进行识别的必要性,以及研究多标签音乐情感识别技 术的重要性。接着,本章介绍了音乐情感识别的研究现状,提出目前存在的问题。 最后,本章给出了本论文的内容结构。 7 浙江大学硕七学位论文 第2章情感窄问的表示和特征的提取 第2章情感空间的表示和特征的提取 2(1音乐情感背景 为了研究音乐情感自动识别,有几个前提问题我们需要先来解决下。 第一个问题是,如何得到音乐情感信息?有一个方法就是人工给出音乐情 感。那么我们就有疑问了,不同的人对同一个音乐的认知是否会有出入,如何才 能得到相对来说可靠的音乐情感信息呢?我们分析一下,会发现,不同的人对音 乐情感认知的出入主要来自于他们不同的文化背景和知识组成。所以,如果我们 选取相同文化背景,在同一个学校受高等教育的音乐专业背景的人来对音乐给出 情感标记,那么就可以得到一个有意义的结果。我们会发现有相同的文化背景和 知识构成的专家对音乐会有相似的情感体验。为了进一步使得我们得到的情感标 记能为后来的研究工作打下坚实的基础,我们可以让不同年龄段的人对同一个音 乐集的音乐进行情感标注,然后把那些有出入的情感标记对应的样本都删除,只 留下情感标记一致的音乐样本。 第二个问题是,如何表示音乐情感信息?现有的音乐情感模型有文本关键字 模型、声学参数模型等。HevnerHll是第一个来研究音乐和情感之间关系的人。她 用67个词来描述音乐情感,把这67个形容词分配到8个类,并且创造了情感环 来描述这8个类的相互递进关系。Hevner情感环模型就是文本关键字模型的代表。 说到这里我们也很好理解,文本关键字模型就是选取一些情感关键字来代表情感 类别。而声学参数模型是指通过一些物理声学特征来表述音乐情感。这个模型的 代表则是Thayer情感模型。 2(2音乐情感表示 在我们选择音乐情感表述模型时,最直接想到的是使用Hevner的文本关键 字模型。但是有几个问题:一是Hevner情感环模型是基于西方受众和西方文化 创建的,其中的情感描述不是完全符合东方人的情感表述方式:二是Hevner共 用了67个形容词来描述情感,无论是对音乐的分类识别还是检索都会是不小的 8 浙江大学硕士学位论文 第2章情感宅问的表示和特征的提取 麻烦。所以我们不妨来看看Thayer二维情感表示模型,或者在此基础上再做一 些改进的情感模型。 2(2(1 Thayer二维情感模型 Thayer认为,影响音乐情感的两个主要因素是压力和能量,在此认识的基础 上建立了二维Thayer模型。按照压力因素的强弱可以把音乐分成从焦虑的到快 乐的不等;按照能量因素的强弱可以把音乐分成从活力的到平静的不等。对应二 维坐标分割成的四个空间区域,音乐可以分成以下四大类:紧张的,恐惧的、兴 高采烈的、满足的、沮丧的。由于压力和能量因素能较好的与声学特征对应,当 前对MP3、WAV等形式的音乐情感的研究,多数建立在Thayer情感模型的基础上。 文献【42】用Thayer的音乐情感模型来对音乐进行情感分类,并提出了一种方法来 自动确定音乐的情感。图2(1是Thayer情感模型的示意图。 Energy 图2(I Thay盯情感模型 9 浙江大学硕士学位论文 第2章情感空问的表示和特征的提取 2(2(2 Tellegen-Watson-Clark情感模型 Tel 系H31。这组二维坐标系与原Thayer二维模型的坐标系成45度的旋转角度。 这组 新的坐标系分别代表高兴,不高兴、参与,脱离。我们下面将要提到的 Mulan开源 模的。图2(2是TeiIegen-Watson-CIark情感模型的示意图。 Positive High Affect PlelSantnesS nt 5trongEngag deli』 ;hted A1Ijrt amazed h蛊嘲y Excited surp讶?ed FPOElreed jo,y'f邺(1 astoFfshed ,( (,。 , 、 (, (,( ,( ,??。 angry 、 Low atrest (, distressed Negative ,??7 ghNegative ,( Affect ((1一 Affect relaxed 、_、 aaraidl ,??, , ( ,。 (, scareo (, (, ddemdailscou、r5hsaedashamed , scouraged qu dt S0a sle downh言a,rted s岁Yll jpy ,‘ti:"ed ,、 D slu( SS 【sengagement;gish Unpleasant LowPositive Affect 图2(2 Teliegen(Watson(Clark情感模型 10 浙江大学硕士学位论文 第2章情感空间的表示和特征的提取 2(3多标签 2(3(1多标签背景 近几年,随着音乐库的不断增加,音乐情感检索应用随之增加,例如,在移 动设备上歌曲选择的应用,音乐推荐系统的应用,电视和无线电项目以及音乐治 疗方面的应用。 目前关于音乐情感检索主要基于以下几类方法,单标记分类,回归,多标记 分类。我们知道有时音乐在某一时刻可能表达的情感不止一种。我们有时更 喜欢 基于联合情感进行音乐检索。由于单标记分类和回归方法都不是基于多维特点进 行建模的,因此,我们研究的焦点就是多标签分类问题,本文主要基于多标记进 行研究。 (3(2基于多标签分类 2 传统的单标签分类主要是关心单标签集合,我们要学习的是一个旯标记,它 来至于一个不相交的标签集合L L元素的个数„ 1 ,A就是集合L的一个元 素,用数学符号表达则为Z?,。而在多标签分类问题中,我们要关心的是属于工 的一个标签集合】,,也就是说Y是集合L的一个子集,用数学符号表达则 为】,?三。 在以前,多标签分类问题主要涉及文本分类问题,以及医疗诊断问题M。现在, 我们发现多标签分类问题涉及面更加广泛了,比如音乐情感分类和语义场景分类 问题等。 (4Emotions数据集介绍 2 emotions 本论文所用的实验数据集是 数据集 b童圭巳;ZZ苎Q垡,垒皇lQ,g坌:n金圭Z仑,Q(j金,圭苎Z婴型!鱼凸Zli!坌苎Z鱼垦主垒苎皇羔苎Z金四Q圭iQ卫苎:,坌r 。 放的Java库 b主主乜;么么业!垫:?Q坠,,坌,Qrg金:凸金主么 ,主要用来多标签数据库学习, 比如,图像和视频语义标记,web网页分类,音乐情感分类等【451。 浙江人学硕士学位论文 第2章情感空间的表示和特征的提取 2(4(1音乐素材的来源 Jazz 爵士 。从以上的每个风格分别选择100首曲子来组建音乐库。这700首 曲子从233个音乐集中收集,每个音乐集中选择3首曲子。截取每个音乐开头30 秒之后的30秒片段,存为wav格式的音乐文件。采样率为22050Hz,采用位数为 16bit,并且是单声道的。 2(4(2音乐特征的提取 Music and forAudio Analysis,RetrievalSynthesis Signals M。要提取的特征分为两 类特征:一类是节奏特征,一类是音色特征。 ? 节奏特征的提取 节奏特征主要根据节拍柱形图的周期变化进行提取。选择两个最大的峰,并 且计算它们的幅度值,它们的BPMs 每秒的节拍数 ,以及它们BPMs的高低比率, 部分,分别累加起来,得到了3个特征。上述的全部处理过程就产生了8个节奏 特征。 ? 音色特征的提取 特征,我们把信号分成帧,并且计算每帧的幅度谱。然后,把它的对数转换到梅 尔域,最后执行离散余弦转换。这里选择了前13维的MFCCs。另外再提取短时傅 立叶变换的3个特征:谱质心、谱滚边和谱通量。 MFCCs,3 对于上述的16个特征 13 FFT ,我们计算其平均值,标准差 std , meanstd 和标准差的标准差 stdstd 。这样就得到了64维音 平均标准差 色特征。 12 浙江大学硕士学位论文 第2章情感空间的表示和特征的提取 2(4(3数据集的建立 中的6个分类标记,具体分类如表2(1所示: 表2(1情感类的描述 标记类 情感类 描述 相关样本 个数 L1 吃惊的一惊讶的 173 L2 高兴的一愉悦的 166 L3 放松的一镇静的 264 L4 安静的一寂静的 148 L5 悲伤的一孤独的 168 L6 愤怒的一恐惧的 189 情感标记建模好后,每首音乐就有6个可选标记了,接下来就要人工标 定了。 作者让3个不同年龄段来自同一高校的音乐专业的专家分别对相同音乐库 进行标 定。他们每个人都要对每一首音乐进行标定。在每首音乐的6个可选标记中,如 果所播放的音乐有某种情感,就将这个情感类对应的标记标定为1,如果没有这 个情感就标记为0。如果3个不同年龄段的专家,对同一首歌的6个标记号都完 全一致的话,建库作者就假设这个标记正确,并把这首音乐放到数据库中。这样 我们就最终得到了593个音乐。再将它对应的72维音乐特征和标签组合起来, 就构成了emotions数据集了。emotions数据集的建立流程如图2(3所示。 浙江大学硕士学位论文 第2章情感空间的表示和特征的提取 初始音乐 从233个唱片集中分别选择3个曲子。 上 片段截取 截取每个音乐开头30秒之后的30秒片段。 I 候选片段 way格式,采样率为22050HZ,采样位数为16bit,单声道。: 上 人工情感标定 3个年龄段的3组专家分别来标定,丢弃不一致的片段。 I 入库音乐片段 593首,6标签。 Jr 特征提取 8节奏特征,64音色特征。 _L 最终的音乐库 593首,72特征+6标签。 emotions数据集建立流程 图2(3 14 浙江大学硕上学位论文 第2章情感空间的表示和特缸的提取 2(5本章小结 情感空间的表示是对音乐情感识别进行研究的前提,本章针对本文的研究所 其中Thayer情感模型是经典基础模型,Tel 型也更适于对多标签音乐进行情感空间的建模。本文所用到的实验数据集就是在 接着本章介绍了多标签分类,阐述了多标签分类的方法以及基于多标签分类的应 用。最后,本章介绍了实验所用的数据集。介绍了数据集的音乐库的来源,采样 的标准,以及具体的情感空间建模和音乐特征的提取等。 15 浙江大学硕:1二学位论文 第3章主成分分析降维处理 第3章主成分分析降维处理 3(1主成分分析简述 PrincipalComponentAnalysis,简称PCA 是一种通用的 主要成分分析 降 维工具。 主成分的概念最早是由英国科学家KarlPearson提出来的,后来由霍特林 将其推广到随机变量当中H引。平时在研究问题的时候,常常需要罗列多个指标来 研究对象,在多元问题中,我们也把指标叫做变量。如果要把所有变量都列 出, 不但会增加后续的工作量,有时还会把简单的问题复杂化。这样就会给研究问题 带来困难。我们能不能用较少的变量来反映原始问题的绝大部分信息呢,这样问 题就能简化很多,也便于课题的研究。 主要成分分析就是用来解决上述问题的一种有效方法。 我们平时在处理高维数据的时候,为了要降低后续处理数据,通常要把变量 降维处理,通常把转化后生成的综合指标叫做主成分。主成分其实都是由原始变 量线性组合而成,而且主成分变量之间都是不相关的。用哲学的角度理解,主成 分就是事物的主要矛盾。 现实中,我们假设有刀个样例,每个样本都用P个指标来考察,这样我们就 变量,我们求出对应随机变量X的均值‖,以及协方差矩阵?。主成分分析就是 要把这P个变量问题,转化成对这P个变量的线性组合的问题。假设有以下P个 ,(((,Yp,这些变量都是通过对X变量的线性表示变量,记为主成分乃,Y2 而来的。 对应主成分数学模型如下: ‘l西+,2l而+„+‘I‘ 厶7’X 3??1 ‘2毛+kjc2+„+‘2xp 厶7’X 侄 ,lp毛+厶pjc2+„+0, 07’X 16 浙江大学硕士学位论文 第3章主成分分析降维处理 这样,根据X与Y的线性表示,以及X的协方差矩阵,我们可以得到Y变量 的方差和协方差,对应如下: V呱乃 Z??,j l,2,(((,P 公式 3(2 cov yj,以 巧?厶,J,k l,2,(((,P公式 3(3 主成分就是那些不相关的Yl,儿,(((,yp组合,也就是对应如下数学表达式 cov yj,Yk O, ,?七 。同时要使方差尽可能大 有些人也叫能量,使能量尽可能 最大 。 由于符合这类条件的M,奶,(((,y口组合不是唯一的。但是我们注意到 V缸饥 七2巧?与,j l,2,(((,P,该值会随着七的变大而无限增大,其结果使问题 变得没有实际意义。所以较简便的方法就是,只考虑t为单位长度系数向量,即 满足如下形式: 瑶+唬+„+巴 1,j l,2,(((,P 公式 3(4 经过上面分析后,我们现在重新定义主成分概念。 假设乃 ‘,jcl+乞』jc2+„+乞,为而,X2,(((,Xp是第j个主成分。同时系数要满足 以下条件: 单位系数向量:巧t l; 主成分间不相关:Z厶 o,k l,2,(((,j-1,k ,; 最大方差条件:Va“M 巧?l最大。 主成分方差依次递减:var gX ?V呱置x ?„?v矾砭x 实际问题中,我们采用前面几个方差最大的主成分来代替原来的P维随机变 量。 图3(1示意了主成分分析的几何意义。 17 浙江大学硕士学位论文 第3章主成分分析降维处理 J 奶穴 ’ , I × , , 。 ,‘ ,( , 、。, I二二_二习7‘,’ ,‘,‘,, 7 ,(,(,(,(, 二三三二三!二二二二二二二二二 y ‘、。、。,‘, 图3(1主成分分析几何意义 3(2主成分分析用于音乐特征的降维 音乐特征往往是高维特征,比如我们本论文实验中将要用到的emotions音 乐数据库就有72维特征。是否可以通过主成分分析来降低音乐特征的维度,来 降低我们对音乐情感进行识别的复杂度呢? 假设总体X jcI,而,„,, 7’的协方差矩阵为?,我们可以对角化后求出对应 18 浙江大学硕士学位论文 第3章主成分分析降维处理 的特征值为^?如?„?以?o,毛,P2,(((,P,,则为其对应的单位正交特 征向量,这 样X随机变量的第i个主成分就为 乃--ej 公 式 3(5 7’X--eIl葺+q2而+„+,,,i l,2,(((,P 同时我们可以求出对应的方差和协方差 var y, ‖?q,江l,2,(((,P 公式 3(6 公 式 3(7 coV 咒,yj -e7Zej o,f,歹 l,2,„,P 也就是说用?求出的单位正交特征向量为系数向量,就是我们要求的主 成 分。第i个主成分系数的值,其实即是第i个特征值对应的单位正交特征向量, 记为丑,同时也是只的方差。 我们知道主成分分析的目的最终是降维,我们选出P个主成分之后,就要选 择k k P 个主成分来表示原来变量。 接下来我们引入方差贡献率w,如下: H ?L,k1,2,(((,P 公式 3(8 ?乃 l-l 我们用心来度量主成分只占整个变量信息的程度。 量 另外累计方差贡献率前k个主成分方差贡献率的和,记为?wj,一般k的取 值就根据累计方差贡献率来确定。根据以往经验,一般我们要取前k个主成分, 七 使累计方差贡献率?M?80,,就可以了‘491。 由于在平时,总体的协方差矩阵?常常是未知的,我们通常会用样本的协方 差S来代替,记为 公式 3(9 窆 s , ‖p 击喜 五一贾 置一j厂 其他的样本主成分计算和选取方法和总体主成分计算和选取方法一样。像这 种利用样本数据求解主成分的过程,其实就是先构造样本协方差,再通过样本协 19 浙江大学硕士学位论文 第3章主成分分析降维处理 方差求解其对应的特征值和特征向量的过程。 在本论文的第六章的实验过程中,我们将通过实验数据来说明主成分分析可 以用于音乐特征的降维。 3(3本章小结 本章介绍了主成分分析方法。介绍了主成分分析的数学模型和几何意义。从 对主成分分析的介绍中,我们可以看到,主成分分析的方法是用来对高维数掘进 行降维,从而减少研究计算的复杂度。由于音乐特征往往是高维特征,本章指出 了可以尝试用主成分分析的方法来对音乐特征进行降维,并介绍了如何对主成分 进行计算和选择。 浙江大学硕士学位论文 第4章语义细胞模型 第4章语义细胞模型 4(1语义细胞模型概述 语义细胞【32。37】是由汤永川和JonathanLawary共同提出的,是针对模糊概念 提出的一种新颖的建模方式,在不确定推理和分类中都有很好的应用。以下我们 简单介绍下: 厶,厶,(((,厶 表示某个元素概念,那么标记 假设我们用标记集以 厶就表示 一个对象概念,可以理解为对这个对象的抽象定义和概括。比如一首歌的情感是 悲伤的,那么就可以用悲伤概念来表示。结合原型理论,我们定义了厶 nearly曰 的形式,其中P就是概念厶的原型,典型值。通常情况,一个概念厶可能有一组 P原型,为了简化,我们接下来一般定义一个概念厶只包含一个原型只。其中一 个概念厶包含多个只原型的情况,可用“ 厶,岛,(((,厶 来实现。 有了概念和原型的定义之后,我们就在此基础上定义语义细胞了。语义细胞 是表示模糊概念的基本单元,它是对某个概念的抽象和描述,用厶表示。而单个 语义细胞厶一般由一个三元结构组成,分别是:原型只、距离函数西,以及密度 函数磊 占 。 其中只是一个原型概念,类似于细胞核,是核心本质的东西,所以可以用以 下形式表示一个语义细胞厶 nearlyP,。为了简化操作,一般一个厶只包含一个只。 谚则是一个距离函数,采用的是欧式距离,对任意的X,】,?Q m x,y X―y r X―y 公式 4(1 谚 占 是一个定义域在【0,佃 上的概率密度函数: 艿 占I‖f,斫 :―f clp―i,盯i ” 瞄 公式 4(2 ?州 2志eXp筹月艮从正态分布;础 f似懈卅m, 其中,m 是归一化因子。巧 占 函数主要用来计算厶的近邻域。 在计算厶的近邻域前,我们首先要知道s边界包围的样本数,也叫X 的g近 邻域汐?,,定义如下:对任意的Li?“,占 0, 2l 浙江大学硕士学位论文 第4章语义细胞模型 t9咙 x:西 x,A ?占 公式 4(3 ( 意思是以P为中心,占为边界所围成的区域。 有了占近邻域t9?三后,就可以定义厶近邻域函数。近邻域函数是用 来表示某 个样本X隶属于厶的程度。如下定义:厶近邻域函数 吧 ‖二 (r 8i e:X?19?三 ai c矽e I d z,朋 公式 4(4 为了更形象的理解近邻域,我们在图4(1中给出近邻域函数的示意图。 近邻域函数图 MIU 0。SIGMA 4 1 0(9 0(8 0(7 0(6 0(5 0(2 0(1 0 0 2 4 6 8 10 12 14 16 18 20
/
本文档为【基于证据理论和语义细胞模型的多标签音乐情感识别的研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索