为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

[精华]基于依存关系树句子级其余情绪分类研究

2017-11-30 11页 doc 102KB 11阅读

用户头像

is_654168

暂无简介

举报
[精华]基于依存关系树句子级其余情绪分类研究[精华]基于依存关系树句子级其余情绪分类研究 基于依存关系树句子级别的情感分类研究 照片尺寸为摘 要:随着互联网的快速发展,网络上的信息呈爆炸式增长,其中主观性文本占有的比例大大增加。20mm*30mm;最 好不用红色背景 本文主要研究句子级别情感分类问题。在详细分析了句子情感分类问题的重要性和难点的基础上,本文提 出了一种基于树核函数的句子级别情感分类方法。该方法使用基于 SVM(Support Vector Machine)的卷 积树核函数自动获取句法结构信息,分别将句法树和依存树作为特征,和其它平面特征相结合,对句子...
[精华]基于依存关系树句子级其余情绪分类研究
[精华]基于依存关系树句子级其余情绪分类研究 基于依存关系树句子级别的情感分类研究 照片尺寸为摘 要:随着互联网的快速发展,网络上的信息呈爆炸式增长,其中主观性文本占有的比例大大增加。20mm*30mm;最 好不用红色背景 本文主要研究句子级别情感分类问题。在详细分析了句子情感分类问题的重要性和难点的基础上,本文提 出了一种基于树核函数的句子级别情感分类方法。该方法使用基于 SVM(Support Vector Machine)的卷 积树核函数自动获取句法结构信息,分别将句法树和依存树作为特征,和其它平面特征相结合,对句子进 行情感分类。 关键词:情感分析、依存关系树、特征选择、分类算法 Abstract:Safe navigation of the ship and the ship collision avoidance areas, research and computing collision risk is crucial, in the finite element simulation analysis of ship collision, the collision will normally be processed into the side impact area deformable structure, hit the ship's bow as a rigid body treatment, which can greatly simplify the analysis and calculations, but also the partial safety can generally be used as approximate results. However, from the perspective of collisions, considering both the real collision deformation and energy absorption of the collision process is essential realistic simulation, this paper uses large-scale dynamic analysis software MSC.Dytran, bow portion and on crash hit broadside collision damage characteristics of synchronous simulation. Key words:Collision; ship structural damage; impact angle; impact 分类的研究工作。句子中含有的信息量少,因而需1 前言 要额外的特征信息来提高其分类的效果,本文探索近年来,随着 BBS 和 Blog 的迅速发展,主 了使用基于句法树和依存树的结构化信息对于句观性的言论越来越多。这些言论大部分都是一些主 子情感分类的效果。本文只针对句子进行情感分类观的论断和对事物的一些看法,如对电子产品、汽 研究。车的使用和电影评论等等。那么,如何判断这 些评论是正面还是反面?态度是赞成还是反对?认为 2 基于句法树的句子级别情感分类分其值得推荐还是不值一文?这就引出了文本分类领 域一个新的研究方向——基于情感的文本分类。析 2.1结构化特征在句子级别情感分类中的作用 本文针对目前句子情感分类问题的难点,采用 树核函数、句法树和依存树实现了句子级别的情感句子含有的信息量不如篇章,直接使用篇章级 别的情感分类方法无法提取足够的特征信息,所以 如图 2.2 所示。 需要加入更多的特征信息。并且基于词袋或者 n-gram 特征的篇章级别情感分类方法都无法捕获 远距离的情感信息。本章的主要工作就是探索基于 句法树的结构化特征在句子级别情感分类中的作 用。 图 2.2 系统图 本系统由多个模块组成,初始的原始语料是从 评价性网站上获取的用户评价信息,经过预处理以 后删除那些有乱码或者单词拼写错误的句子。下一 步将获取的句子交由 Stanford parser1生成句法树, 然后为每个句子标明类别标签等信息以满足 SVM 图 2.1 两个句子对应的句法树分类器需要的格式,生成训练和测试数据。接下来 使用训练数据获得模型文件,并使用该文件对测试 图2.1 示的是句子“I like that film ”和“This 数据进行分类测试,然后计算出分类的性能。film looks like that film”对应的句法树。如果使用 -gram 特征,很可能会认为这两个句子的情感倾向n2.3句法树的获得 性一致。但是通过句法树可以很容易发现:虽然两本文的重点是研究如何以卷积树核为工具去个句子中都含有“like that film”结构,但是这个相提取句法树中的情感表达模式,用于句子级别的情同的部分在两个句子的句法树结构中是不同的。这感分类研究中。本文研究中使用 SVM-light-TK2种情感倾向性的差异表达可以通过句法结构展现出作为分类器,SVM-light-TK 工具是在 SVM-light3来。但如果单纯的使用人工去总结和标注这些规则的基础上,提供对卷积树核函数的支持。它的训练存在很大的困难,首先这样需要领域专家去总结这数据的输入格式如图 2.3,整个格式分成三部分:些规则;其次由于自然语言表达的复杂性,人们很首先是类别标签,用于标示该对象属于正例还是负难穷尽所有规则。所以通过机器学习的方法,从已例;其次是句法树特征,即括号表示的句法树,该经简单标注或者没有标注的文本中自动挖掘这种情特征以“|BT|”为标志开始、“|ET|”标志结束;最感表达模式,有着很大的实际价值和良好的运用前后是基本特征。 景。 2.2句子级别情感分类系统流程 本文实现的句子级别情感分类系统的具体流程 图 2.3 包含句法树特征的 SVM 样例 本文通过 Stanford-parser 工具包获取句法树, 该工具包是斯坦福大学的相关人员使用 Java 语言 编写的一个开放源代码的概率性的自然语言语法分 析器。它可以分析出句子的词性标注信息、句法树 结构信息以及词语之间的依存信息。 图 2.4 显示了核函数与传统基于特征的算法 之间的对比关系2.4核函数方法和卷积树核 2.4.2 卷积树核 近些年的自然语言处理领域中,越来越多的研 本章采用 Collins 和 Duffy(2001)提出的卷究者使用卷积树核挖掘结构化信息来解决自然语言 积树核函数(Convolution Tree Kernel,CTK),即处理的某些问题。SVM 提供了对于卷积树核 两棵树之间的相似度可以通过计算它们之间的相(Collins 等)的支持,本节简单介绍核函数,卷积 同子树的数目来实现。 树核和复合核的基本知识。 递归计算: 2.4.1 核函数方法 许多的机器学习算法只是涉及到在特征空间中 进行向量之间的点积,其中每个对象都由一个特征 来表征。核函数可以看成一种基于特征算法的泛化其中#ch(n)是节点 n 的子节点数目,ch(n,k)是(Generalization) 的表示,它使用两个向量的核函数 节点 n 的第 k 个子节点,而 λ( 0< λ<1)则是衰Ψ(X, Y)来代替点积。从数学上来说只要 Ψ(X, Y)退因子,用来防止子树的相似度过度依赖于子树的是对称的,并且由其产生的核矩阵是半正定的,那大小。 么它就会在一个隐式的希尔伯特空间(Implicit 2.4.3 复合核 Hilbert Space)中形成一个有效的点积。在这个隐式复合核在情感分类中也可以体现其价值。复合的希尔伯特空间中,一个核可以分解为多个特征,核的树核函数通过对句法树计算为情感分类提供并且特征的维数可以是无限的。所以核函数是解决结构化信息,而复合核中的基本核则可以包含一些高维特征分类问题的一个很好的选择。使用核函数无法通过树核函数捕获的信息。比如可以在基本核与传统基于特征的算法之间的对比关系如图 2.4 中标注出该句中含有的情感字典中词语,这样就可所示。 以在复合核中引入一些对于情感分类很重要的信 息,进而提高情感分类的准确率。 2.4.4 树核空间 子树(ST)是指由原来的树结构中任意一个节行有关树核函数的试验中,使用 SVM-light-TK 工点和其所有后代节点构成的一棵子树,子集树具包,其在 SVM-light 的基础上添加了对树核函数(SST)的构成相比子树更加自由,不包含一的支持。对于单纯的树核实验(不使用混合核),个节点的所有后代节点。所以子集树的叶子节点可本文设置 SVM-light-TK 的 C 参数值为“T”;对以是原来树结构的非叶子节点。于混合核实验,设置C参数值为“+”。其余参数 如果不做特殊说明即为SVM-light-TK的默认值。 子集树(SST)虽然结构比子树(ST)自由, 但是子集树必须满足一个约定:不能破坏语法规则3.3树核的实验结果 (Grammatical Rules)。所以“(NP (DT NN))”是首先使用 Stanford parser 把语料中的主观性一个子集树,但是“(NP (DT))”却不是子集树。句子转化为句法树,然后把这些 FT直接交由 如果不遵守这个语法规则,得到的更加一般化的结SVM 训练;接着使用 3.7 节提到的剪裁树和剪枝构称为局部树(Partial Trees, PTs),但是本文的 PT,然后交由 SVM 策略,把 FT 剪裁为 MCT和 训练。最后的结果如表 3.1 所示。研究不考虑局部树的情况。在后面的试验中本文将 对比子树(ST)和子集树(SST)在情感分类中的 性能。 表 3.1 FT、MCT 和 PT 情感分类的结果 3 实验结果与分析 3.1数据集 本文的语料来源于 Bo Pang 和 Lillian Lee 的电影评论数据库,该数据库中包含5331 个正向 情感的电影评论片段(snippet)和 5331 个负向情 感的片段。从中随机选取1800 个单句(900 个正 向情感句,900 个负向情感句)的评论作为实验语 料。按照 Pang等的试验设置,对于数据集使用了 通过上面的实验中分类器预测的数据和测试3 层交叉验证。每层的数据都是 600 句,其中包数据的对比,发现了分类出错的句子存在以下的特含 300 个正向情感句和 300 个负向情感句。点: 1(分类出错的句子中长句占据的比例比短句 要很多。 3.2实验设置 试验参数设置如下:在以 word unigram 和 2(分类中出错的句子中,含有情感转移的句word bigram 为特征的两个试验中,使用 SVM 中子出错率很高。 的线性核,其参数使用 SVM-light 的默认值。在进 3(在分类出错的句子中,有很多句子本身就从上面的实验结果可以看出,基于词典 D 是有语法错误的,或者根本就是不通顺的句子。 2的情感分类的效果要好于 D1。这也符合情感分 类对于领域依赖的特点。同时可以看出 D2的分类3.4复合核中平面特征和结构化特征的贡献 结果中,准确率(Precision)没有什么改变,但召 复合核是由基于平面特征的基本核和基于结构回率有比较大的提升,这说明 D2中添加的领域相 关的情感词发现了更多的情感表达。化特征的树核,按照一定得比例复合而成的。具体 的公式在此:λK1+(1-λ)K2 复合核。其中 K1 表 示由结构化信息所得的卷积树核,而 K2 表示由基3.6子树核与子集树核 实验结果表明:在句子级别情感分类研究中,本特征所得的基本核。在这个实验中,通过改变公 式中λ 值来分析基本核和树核在复合核中的贡献子集树核比子树核的效果更好。这是因为子树的生 0.1 时,分类成规则导致核空间中的子树数目比子集树核要少,度。表 3.2 的结果显示 λ=0.2 和 效果最佳,得到了基于句法树实验中最好的 F1 值 并且子树中的节点必须包含其所有孩子节点,这样72.49%。 就导致在比较句法树时,其相似度下降。 表 3.2 复合核中平面特征和结构化特征的贡献 表 3.4 子树核与子集树核的实验结果 3.5不同情感词典对分类性能的影响 4 结论 本文研究树核函数在句子级别情感分类中的这里使用两个情感词典:实验中本文分别使用 贡献,主要取得了以下的一些成果。这两个情感词典对 FT 进行基于情感词的裁剪,然 后比较各自的分类性能。结果如表 3.3 所示。 1(将树核函数应用到句子级别情感分类研究 中,的结构化信息可以帮助句子级别情感分类表 3.3 不同情感词典的分类性能 工作。 2(将句法树应用于句子级别情感分类研究中, 针对完整句法树会引入过多噪音的问题,对句法树 进行适当的裁剪,将一些噪音分枝剪掉,同时提出 Sentiment Analysis. Proceedings of the Human Language 了基于形容词和情感词的两种不同裁剪方法,尽量Technology Conference/ Conference on Empirical 达到最大化保留有用信息,去除无用信息。实验表Methods in Natural Language Processing (HLT/EMNLP-2005) . 2005明合理的裁剪可以提高系统的分类性能。 [6] 张文军. 基于文本内容的微博突发话题检测技术研究 [D]. 杭州电子科技大学 2014 3(针对多形容词的句法树,提出了一种动态[7] 刘涛. 中文评论文本情感分析研究[D]. 安徽大学 的剪枝算法。该算法可以更好的去除噪音,提高性2014 [8] 陶新竹,赵鹏,刘涛. 融合核心句与依存关系的评价搭能。 配抽取[J]. 计算机技术与发展. 2014(01) 4(将依存树应用在句子级别情感分类研究中, [9] 崔建明,刘建明,廖周宇. 基于SVM算法的文本分类技并且实验显示分类性能要优于句法树。同时也对依术研究[J]. 计算机仿真. 2013(02) 存树进行裁剪,并取得了系统性能的提升。[10] 顾正甲,姚天昉. 评价对象及其倾向性的抽取和判别 [J]. 中文信息学报. 2012(04) [11] 王晓东,王娟,张征. 基于情感词汇本体的主观性句子由于作者水平有限,加之经验不足,文中难免 倾向性计算[J]. 计算机应用. 2012(06)偏颇不妥之处,恳请各位专家不吝批评指正。 参考文献: [1] Jeonghee Yi,Tetsuya Nasukawa,Razvan Bunescu,Wayne Niblack.Sentiment Analyzer: Extracting Sentiments about a Given Topic using Natural Language Processing Techniques. Proceedings of the 3rd IEEE International Conference on Data Mining (ICDM-2003) . 2003 [2] Xiwen Cheng.Automatic Topic Term Detection and Sentiment Classification for Opinion Mining. . 2007 [3] Steven Bethard,Hong Yu,Ashley Thornton,Vasileios Hatzivassiloglou,Dan Jurafsky.Automatic Extraction of Opinion Propositions and their Holders. Proceedings of the AAAI Spring Symposium on Exploring Attitude and Affect in Text: Theories and Applications . 2004 [4] Bo Pang,Lillian Lee.A Sentiment Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts. Proceedings of the Association for Computational Linguistics (ACL-2004) . 2004 [5] Theresa Wilson,Janyce Wiebe,Paul Hoffmann. Recognizing Contextual Polarity in Phrase Level
/
本文档为【[精华]基于依存关系树句子级其余情绪分类研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索