为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

基于树核函数的英文代词消解研究

2017-11-24 17页 doc 73KB 44阅读

用户头像

is_260251

暂无简介

举报
基于树核函数的英文代词消解研究基于树核函数的英文代词消解研究 Vol . 23 , No . 5 第 23 卷 第 5 期中文信息学报 Sep . , 2009 2009 年 9 月J O U RN AL O F C H IN ES E IN FO RMA T IO N P RO C ESS IN G () 文章编号 : 100320077 20090520033207 基于树核函数的英文代词消解研究 王海东 ,胡乃全 ,孔 芳 ,周国栋 (苏州大学 计算机科学与技术学院 ,江苏 苏州 215006 ; )江苏省计算机信息处理技术重点实验室 ,江苏...
基于树核函数的英文代词消解研究
基于树核函数的英文代词消解研究 Vol . 23 , No . 5 第 23 卷 第 5 期中文信息学报 Sep . , 2009 2009 年 9 月J O U RN AL O F C H IN ES E IN FO RMA T IO N P RO C ESS IN G () 文章编号 : 100320077 20090520033207 基于树核函数的英文代词消解研究 王海东 ,胡乃全 ,孔 芳 ,周国栋 (苏州大学 计算机科学与技术学院 ,江苏 苏州 215006 ; )江苏省计算机信息处理技术重点实验室 ,江苏 苏州 215006 摘 要 : 该文提出了一种基于树核的英文代词消解方法 。针对结构化信息在指代消解中的重要作用 ,该文使用SV M 提供的卷积树核函数自动获取句法结构信息 ,将句法树作为一个特征 ,和其他基本特征相结合。该文系统的 了训练用例的过滤及不同的剪枝策略对模型性能的影响 ,同时还分析了树核函数对于几句之内的代词消解有 比较好的结果 。在 A C E2004 N W IR E 基准数据上进行实验的结果说明树核能显著地提高代词消解系统的性能 ,并 且对一句之内的代词消解有较好的效果 。 关键词 : 计算机应用 ;中文信息处理 ;指代消解 ;句法结构 ;树核函数 ;修剪策略 中图分类号 : T P391文献标识码 : A Tree Kernel2Ba sed Engl ish Pronoun Coref erence Resol ut ion WAN G Haido ng , H U Naiqua n , KON G Fa ng , Z HO U Guo do ng ( School of Co mp uter Science & Ttechnolo gy , Soocho w U niver sit y , Suzho u , J iangsu , 215006 , China ; )J iangsu Key L a bo rato r y of Info r matio n Proce ssing Technolo gy , Suzho u , J ia ngsu , 215006 , China Abstract : Thi s pap er p ropo ses a t ree ker nel2ba sed app roach to a nap ho ra resol utio n of Engli sh p ro no un. In o ur met h2 o d , t he co nvol utio n ker nel of SV M i s fir st used to o btain st r uct ured i nfo r matio n , and t hen such achieved f eat ure of t he synta x i s co mbined wit h o t her ba sic f eat ures in t he literat ure. A system analysi s of t he imp act of t he filtering of t raining insta nces a nd diff erent p r uni ng st rategie s o n t he result s i s co nducted. Furt her exa minatio n o n t he p ro no un re sol utio n p erfo r ma nce s in rega r d to t he sentence di sta nce s i s al so ca r ried o ut . Eval uatio n o n t he A C E2004 N W IR E benchmar k co rp us sho w s t hat t ree ker nel ca n imp ro ve t he p erfo r ma nce significa ntly , e sp ecially fo r t he p ro no un reso2 l utio n wit hin a sentence . Key words : co mp uter applicatio n ; Chinese info r matio n p rocessing ; co ref erence re sol utio n ; st r uct ured synt ax ; t ree ker nel ; p r uning st rategy 系中的一个主要任务 。 在指代消解领域 ,早期的研究方法侧重于理论 1 引言探索 ,运用大量手工构建的语言甚至领域知识 。近 十年来 ,由于自然语言处理技术的迅速发展和对指 指代消解是自然语言处理的关键问题之一 ,它代消解技术的迫切应用需求 ,人们逐渐转向基于有 是自然语言处理中篇章理解不可缺少的内容 ,文本 摘要、机器翻译 、多语言信息处理和信息抽取等诸多 监督 的 机 器 学 习 方 法 , 并 取 得 了 一 定 的 进 展 。 [ 2 ] 应用都涉及到指代消解问题。1997 年的 EA CL 和 Soo n采用了基于决策树的机器学习方法 ,选取了 12 个特征 ,并给出了完整步骤和实现平台 , 该方法 1999 年的 A CL 年会都设立了指代消解的专题会 [ 1 ] 议,指代消解也是 M U C 和 A C E 信息抽取评测体 也成为国内外利用机器学习方法进行指代消解研究 收稿日期 : 2008209218 定稿日期 : 2008212201 () ()基金项目 : 国家自然科学基金资助项目 60673041;国家 863 高技术资助项目 2006A A01 Z147 () () 作者简介 : 王海东 1981 —,男 ,硕士生 ,研究方向为自然语言处理 ;胡乃全 1982 —,男 ,硕士生 ,研究方向为自然语言处 () 理 ;孔芳 1979 %,女 ,博士生 ,研究方向为自然语言处理 。 的基础。在此基础上 ,以后的研究大多数集中在如,他考虑了三种简单的裁剪树的方式以及不同的试 [ 3 ] 何选取更有效的特征。N g 等提取了 53 个特征 , 句法分析工具对代词消解的影响 ,但其并没有深入 涵盖了语义词汇等各个方面 , 取得了很好的效果 。 探讨句法树本身和预处理过程。 [ 8 ] 随着指代消解研究的不断深入 ,自动指代消解技术 本文在 Ya ng 等的基 础上 进行扩 展 , 使 用[ 9 ] Cha r nia k的句法分析器得到句子的句法树。将句 近年来在性能的继续提高上遇到了不小的瓶颈 ,研 法树直接作为一个特征 ,与其他的基础特征一起交 究人员于是把焦点转向了基于自动产生的深层语言 [ 8 ] 由 SV M 训练。Ya ng 等对三句之内的指代关系 知识 ,特别是结构化句法信息 ,期望取得性能上的突 构建句法树 ,经验明超过两句的指代很少有固定 破。 的指代模式 ,而且对三句构建句法树会使系统的开 传统的研究主要集中在如何把结构化信息转化 销比较大 ,所以本文只对两句之内的照应语和先行 [ 8 ] 词构建句法树 。与 Ya ng 等的系统相比 , 本文并 为一般的特征 ,主要是通过句法结构 ,以及中心理论 没有考虑不同的句法分析器产生的句法树对指代消 将部分句法信息提取出来。这种方法受制于手工提 解系统的影响 ,而是重点分析了训练实例的过滤和 取的规则 ,不能充分的挖掘句法信息 。本文使用树 不同裁剪策略对指代消解的影响。在 A C E2004 核函数 ,将句法树直接作为一个特征交由 SV M 训 N W IR E 语料上的测试表明 , 利用句法信息可以显 练 ,从而自动获取句法信息。本文重点在于系统的 著地提高系统的性能 , 与 Soo n 的原型系统相比 , F 分析了树核函数在指代消解中的应用 ,包括训练实 值提高了 12 . 8 % 。 例的过滤 、不同的剪枝策略等 ,同时还分析了树核函 数对于几句之内的代词消解有较好的结果 。 本文后续内容组织如下 : 第二部分简述相关的 工作 ;第三部分介绍卷积树核函数和复合核 ;第四部 3 卷积树核和复合核 分介绍本文使用的剪枝策略 ; 第五部分说明训练实 例的过滤 ;第六部分试验结果的分析和讨论 ;最后是 为了将结构化信息引入指代消解 ,本文使用支对全文内容的和展望。 持树 核 的 SV M 作 为 分 类 器 , 实 现 代 词 的 消 解 。 [ 9210 ] SV M 中使用卷积树核函数来计算两棵树的相2 相关工作似度 ,从而挖掘指代模式 ,明确照应语和先行词的指 代关系。 早期的研究表明 ,结构化信息对于指代消解非 [ 4 ] 3 . 1 卷积树核常重要。Ho b b s使用句法树进行代词的指代消 解 ,该算法首先为文档中的每个句子建立完全解析 卷积树核函数是通过计算两棵解析树之间的相 同子树的数量来比较解析树之间的相似度。例如有 树 ,然后采用从左到右广度优先的搜索方法遍历完 两棵解析树 T和 T, 要计算相似度 KT, T: 1 2 c 1 2 全解析树 ,最后根据语法结构中的支配和绑定关系 选择 合 法 的 名 词 短 语 作 为 先 行 语。L appi n 和 Δ( ) ( ) K T , T = n, n1 1 2 c 2 ?[ 5 ] n ?N , n ?NL ea ss提出一种 RA P 算法 , 使用 McCo r d 提出的 1 1 2 2 Δ( ) 其中 N 是 T 的节点集合 ,n, n计算以 nj j 1 2 1( ) 槽文法 Slo t Gra mma r获得文档的句法结构 ,并通 和 n为根的共同子树个数 , 可以按照下面递归方法 2 过手工加权的各种语言特征计算各先行语候选的突 计算 : 显性 ,利用过滤规则确定先行语 ,实现句内和句间第 ( ) 1如果 n和 n节点处的产生式不同 , 则 1 2 三人称代词和反身代词的消解 。 Δ( ) ( ) n, n= 0 , 否则转向 2;1 2 树核函数在自然语言处理的各个领域得到了广 [ 6 ] ( ) 2如果 n1 和 n2 都是叶子前的一个节点 , 则泛应用。D mit r y Zele nko 等使用树核实现了关系 [ 7 ] Δ( ) ( ) λn, n= 1×, 否则转向 3;抽取。Zha ng 等应用卷积核函数来实现关系抽 1 2 ( ) Δ ( )递归地计算n, n:( ) 3 1 2 取 ,并且提出来最短路径包含树 SP T。SP T 表示 ( )# ch n 1 ( ) 根据两个词 E1 , E2抽取出来的最短路径包含树 。 Δ( ) λ ( Δ( ( ) ( ) ) )n, n= 1 +ch n, k, ch n, k1 2 1 2 [ 8 ] ?Ya ng 等使用卷积树核函数实现了指代消解 ,并分 k = 1 ) ( 其中 # c h n是节点 n的孩子节点数目 , 析了三种不同的裁剪策略对指代消解性能的影响 。 1 1 [ 8 ] λ( λ) ( ) Ya ng 等的研究是对树核用于指代消解的一个尝 c h n , k是节点 n 的第 k 个孩子节点 ,0 << 1是 5 期王海东等 : 基于树核函数的英文代词消解研究 35 衰退因子 。结构化信息所得的卷积核 ,而 K2 表示由基本特征 所得的基本核。新的复合核由两个核的乘积所得 ,当 3 . 2 复合核测试时系统的预测值为 1 ,说明照应语和先行词候选 卷积树核是计算两棵树 T和 T的相似度 ,如的基本特征和结构化特征都表明两者有指代关系。 1 2 果 T中存在照应语和先行词候选有指代关系 , 而 1 T和 T很相似 ,那么分类器认为 T中的对应位置 1 2 2 4 句法树的裁剪的两个词也可能有指代关系 。新的 SV M 工具提供 了对卷积树核的支持 ,并且只需将括号表示的句法 包含照应语和先行语候选的句法树能提供丰富() 树放进训练实例中 如图 1 所示与其他基本特征结 的结构化信息用于指代消解 ,那么该选择一棵什么 合进行训练即可。 样的子树来进行训练 ? 如果使用一棵完整的句法 树 ,那么系统开销太大 ,并且包含太多噪音 ,使得固 定的指代模式很难发现 ; 如果树的节点被裁剪的太 ( ( ( ( ) ) ( ) )+ 1 N P N P N N P E2 Yugo slavN N S p eople 多 ,可能将一些有用的信息裁掉 。下面讨论本文使 ( ) ( ( ( ) ) ) ) CC andN P PR P , E1 t heir| S TD| 1 ?1 2 ?0 3 用的几种裁剪树。 ?0 4 ?0 5 ?0 6 ?0 7 ?0 8 ?0 9 ?0 11 ?0 12 ?0 为了明确句法树中照应语和先行语 ,本文引入 图 1 SV M 的训练和测试实例两个节点 E1 和 E2 , E1 表示照应语 , E2 表示先行语 [ 9210 ] ( ) 使用卷积树核函数 Colli n s 等来计算两棵[ 7 ] () 候选 如图 2 所示。利用 Zha ng 等 中使用的术树的相似度 ,从而挖掘句子中的结构化信息 。在以 语 ,将一棵完整的句法树标记为 M C T 。完全句法树往的应用中已经表明 ,卷积树核能有效地挖掘句子 虽然可以得到更多的信息 ,但同时也引入很多噪声 。中的结构化信息 。但是卷积树核只能获取结构信 卷积树核是通过相同子树来计算两棵树的相似度 ,息 ,而基本特征所表示的常规信息需要通过 SV M 所以两棵树越大 ,它们的相似性就越小 。于是本文 () 提供的基本核 线性核、多项式核 ,径向基核等去捕 考虑公共节点树 C T , 就是两个待消解词的公共节 捉。于是需要一个复合核将两者结合起来 ,本文使 () 点下的所有节点构成的树 如图 2 所示。 用 SV M 提供的 K1 3 K2 复合核 。其中 K1 表示由 () 图 2 MC T 树和 C T 树 句法树来自 Cha r niak p ar ser [ 7 ] 在公共节点树 C T 的基础上 ,根据 Zha ng 等M C T 是一棵完全本文只考虑上述四种树。 ( ) 的剪枝策略 ,我们继续得到最短路径包含树 SP T,树 ,所以信息最全 ,同时噪音也最多 ; C T 在 M C T 的 该树只保留照应语和先行语之间的节点 ,裁剪策略 基础上 ,只保留从公共节点往下的所有节点 ,虽然去 ( ) 如图 3 所示。最后本文再考虑一种最小树 M T, 掉了很多噪音 ,但产生的树依然很大 ;在 C T 的基础就是只保留照应语和先行语的直接祖先节点 ,到它 上本文又得出了 SP T , 该树包含很少的噪音 , 但同 们的公共节点之间的节点 ,最终结果如图 3 所示 。 时很多有用的信息也被裁剪掉。在 SP T 的基础上 图 3 SP T 树和 M T 树 图 4 两棵句法树合并为一棵句法树 [ 2 ] 进一步得到了 M T ,这棵树相应的节点最少 ,噪音也 Soo n在 M U C26 语料上 , 单独使用全匹配特征。 最少 ,但去掉的结构化信息也最多。 通过句法分析特征 F 值就达到了 53 . 9 % ,全匹配是贡献度最大的 一个特征 。全匹配特征本身可以转化为规则 ,如果 器可以得到一个句子的句法树 , 照应语与先行词完全匹配 ,那么它们应该被认定具 由于本文将会考虑对两句之内的指代使用树核 ,所 有指代关系 。如果在基于树核的代词消解中不去掉 以要将两棵句法树先合并为一棵句法树。对于包含 全匹配 ,那么分类器认为符合全匹配的句法树中也 两句的句法树只需要加一个顶层节点 ,将两个句法 存在固定的指代模式 ,显然这是不正确的。本文在 树分别挂在顶层节点的左右孩子节点上 ,就可以产 基于树核的代词消解中 ,将全匹配转化为规则 ,在训 生一个包含两句的句法树。为了将一句之内的句法 树和两句之内的句法树分开 ,在两句之内的句法树 练实例中去掉那些照应语和先行语候选一样的实 产生过程中 ,将每一个一句的句法树的顶层节点 S 例。 改为 SB A R ,公共顶层节点改为 S1 。如图 4 所示 : 和全匹配一样 ,在代词的消解中 ,人称代词和其图中只是部分句法树 ,后续节点用省略号省略。 所有格的指代也应该从训练实例中去除。比如 he 和 hi s 。对于以往的消解系统 ,遇到这种情况 ,分类 5 训练实例的过滤器也会认为两者有指代关系 ,但在实际的文本内 ,两 者的出现并不表明当前的用法是一种固定的模式 , 训练实例的选择对分类器的性能有很大的影所以人称代词和其所有格的指代实例也应该从训练 响 ,在用传统的特征进行指代消解时 ,并不对训练实 实例中去除 ,同时将人称一致转换为规则 。 例做过多的过滤。而在基于树核的代词消解中 ,因 为需要通过分类器自动捕捉句法信息 ,所以需要尽 量减少噪音 ,去掉那些本身没有固定模式的实例 ,这 5 . 2 it 的过滤 样才能捕捉到准确的结构化信息 。 在英文中 ,it 被经常使用 ,但并不是所有 it 都需 要消解。本文需要在训练实例中去掉那些由于不需 全匹配和人称一致的过滤5 . 1 消解的 it 产生的负例 , 从而减少分类器的噪音 , 提 高测试时系统的性能 。英文中的 it 主要分成三类 : 在以往的指代消解研究中 ,全匹配是最重要的 5 期王海东等 : 基于树核函数的英文代词消解研究 37 一类 it 指向某个实体 ,这类 it 需要消解 ; 一类 it 指it 。每一种系表结构在词语的顺序上有一定的规的 向前 文 描 述 的 某 个 事 件 , 这 类 it 在 A C E2004律 ,这种规律可以通过词性标注反应出来。本文将 N W IR E 中是不需要消解的 ; 还有一类 it 作为一种 这些词性标记表现出来的规律转化为相应的规则 , 系表结构 ,也不需要消解。对于第二种 it ,虽然不需 然后在测试前 ,先对 it 进行一下过滤 。 要消解 ,但是目前没有什么好的方法将其和第一类 表 1 中是各种冗余 it 的表现形式 ,其中〈be〉表it 区别开 ,所以这类 it 本文不作过滤 。本文主要考 示可以有多种动词 be 的屈折形式。而 3 表示当前 虑的是第三类 it ,也称之冗余 it 。 的这个词性在这种形式中可以出现多个同词性 的词。 本文分析了作为系表结构的 it ,并将其分为三 类 : 关于气象的 it ,关于时间的 it 以及被动结构中 表 1冗余 it 的分类说明冗余类别 表 现 形 似 详 细 说 明 表示关于气候的形容词 ,比如 clo udy 、sunny 、windy 。具体形式 ADJ It〈be〉ADJ 如 : It i s clo udy 。 Meteo rolo gical 表示一下关于气候的名词 , 比如 raining 、sno wing 。具体形式 PCP It〈be〉ADV 3 PCP ( pleo na sms 气象的 如 : It i s rai ning 、It i s ha r dly rai ning 。)冗余 表示关于季节的名词 ,英文中主要有 5 个 : sp ri ng 、summer 、au2 N It〈be〉N t umn 、f all 、winter 。 〈be〉ADV 3 N U M N U M 表示数字 ,主要形式如 : It i s t hree o’clock 。 ItTempo ral anap ho2 ( ra 关于时间的指 It〈be〉PR EP 3 time PR EP 表示介词 ,time 是英文单词 ,这类形式比如 : It’s a bo ut ti me 。)代冗余 ()It〈be〉ADV 3 ea rly | late | 表示当前的两个词有一个出现就可以 ,这类形式如 , It’s early 。 这是冗余 it 的主要表现形式 , 其中 mo dadj 是形态形容词 , 比如 : It〈be〉mo dadj t hat ea sy 、usef ul 、po ssible 等 。Pa ssive co nst r uc2 It〈be〉mo dadj [ fo r N ] to V [ fo r N ]表示可有可无 ,这也是冗余 it 的主要表现形式 。 ) (tio n 被动结构 是一些情感动词的形式 。 Vco g N Vco g it mo dadj [ fo r N ] to V 这种基于规则的方法并不能穷尽所有的可能 ,比如 It see m s t hat . . . 。从上面的分析来看 ,这种冗余 it6 实验结果与分析 大多数都有固定的形式 ,在以后的研究中可以尝试 使用树核来解决 it 是不是系表结构的问题 。 实验语料采用 A C E2004 N W IR E 基准语料 ,选 表 2 对于 it 的过滤结果 取其中 75 篇作为训练语料 ,21 篇作为测试语料 ,使 [ 11 ] 用 Cha r nia k’s p a r se r 得到句法树。本文统计了 R/ % P/ % F/ % 测试集中需要消解的代词个数 ,一句之内的指代共 it 的过滤 ()()76 . 6 49/ 64 87 . 5 49/ 56 81 . 7 有 166 个代词需要消解 ,超过一句并且在两句之内 的指代有 74 个 。 6 . 2 对一句之内代词的消解 6 . 1 冗余 it 的过滤 在本文原型系统的训练过程中 ,冗余 it 并不参 下面的实验针对一句之内的代词 ,模型也是通 加训练 ,所以本文只对测试语料中的 it 进行统计 ,过一句之内的实例训练而得。原型系统使用 Soo n在 21 篇的 A C E2004 测试语料中 ,共有 82 处 it ,其 的 12 个基本特征 ,以后的实验在基本特征的基础上 中共有 64 处不用消解 ,另有 18 处需要消解 。通过 加入句法树特征。从表 3 看 ,在无训练实例过滤的 上面提出的规则 ,本文共识别出 56 处不需消解 ,其情况下与 Soo n 的原型系统相比 , 使用树核可以明 显提高系统的召回率 。在选用 M T 的情况下 ,系统 中 49 处正确。 的召回率提高了 24 . 7 % ,准确率有所下降。实验数 从表 2 看 ,利用规则的过滤能得到一个满意的 据说明 ,使用 S P T 树消除了多余的噪音 ,同时也最 结果 ,但通过词性标注来确定当前的 it 是否冗余 , 大程度的保留结构化信息。而 M T 树由于节点更剪树能使系统的性能得到很大的提升。 ,使得训练器的性能更加 对训练实例进行过滤 少 ,从而不能更好的凸显那些有指代关系的模式 ,召 精确。从表 3 看 ,在有训练实例过滤的情况下 ,系统 回率没有 SP T 好 ,但正因为 M T 树节点少 ,更易准 的准确率明显要高于无过滤的情况 ,而召回率相对 确的判断两棵树的相似度 , 所以准确率相比 SP T 有所下降 , 但在 M T 树的情况下 , 系统的召回率却 好 ,在总体性能上 M T 树好于 S P T 树。使用 M C T 有所提升 ,说明适当的过滤训练实例能有效提高系 和 C T 系统的召回率有所提升 ,但准确率下降较多 。 统的性能 ,在有过滤的 M T 树下 , 系统的 F 值比原 型系统提高了 12 . 8 % ,取得了最好结果。 从实验数据看 ,使用树核的确能对代词的消解起到 很大的作用 ,特别是对代词的召回率 ,在 SP T 树下 , 系统多找出了 39 个指代关系 。数据证明适当的修 表 3 对于一句内代词消解的结果 无 过 滤 有 过 滤 R/ % P/ % F/ % R/ % P/ % F/ % 原型系统 ()()57 . 8 96/ 166 78 . 6 96/ 122 66 . 6 ()()()()MC T 69 . 3 115/ 166 53 . 2 115/ 216 60 . 2 69 . 5 115/ 166 55 . 3 115/ 208 61 . 6 ()()()()C T 74 . 7 124/ 166 60 . 2 124/ 206 66 . 7 73 . 5 122/ 166 61 . 3 122/ 199 66 . 8 ()()()()SP T 81 . 3 135/ 166 67 . 5 135/ 200 73 . 8 79 . 5 132/ 166 72 . 9 132/ 181 76 . 0 ()()()()M T 80 . 9 132/ 166 70 . 6 132/ 187 77 . 6 81 . 3 135/ 166 77 . 6 135/ 174 79 . 4 似性只体现在一句之中 ,而不存在于句子层次 。事 实上句群间的结构也有很多的相似性。但就指代消 6 . 3 对两句之内代词的消解 解任务而言 ,句群间的相似性对于指代消解并没有 太大的作用 。下面从语言学和机器学习的角度分别 为了验证树核对于超过一句的指代是否起作 用 ,本文做了如下的两组实验 : 一组实验是对两句 进行分析 。从语言学的角度来看 ,只要符合语义类 之内的代词产生相应的句法树 ,然后生成模型 ,对两 别、单复数等的一致性限制 ,英文中一句之内的指代 句之内的代词指代用树核进行消解。另一组实验是 模式很明确 ,但当超过一句时 ,相应的指代模式也存 对代词和其先行语候选在一句之内的情况采用一句 在 ,但是这种指代模式大多数时候表现为两句之间 之内的树核模型进行消解 ,对代词和其先行语候选 的主语指代 、宾语指代或者前一句的宾语和后一句 超过一句但在两句之内的情况采用原型系统进行消 解。通过两组实验结果的比较 ,就可以知道树核是 的主语相互指代等 ,首先这些指代在以往的研究中 [ 14 ] [ 12213 ] 否对超过一句的指代消解有作用 。通过上面的分析 已经有很好的解决 ,比如通过中心理论和角 可知 ,使用 M T 和 SP T 树能得到较好的结果 ,并且 [ 14 ] 色成分特征等。其次两句间的这种指代比不指 系统的开销也较小 ,所以下面的实验仅考虑 M T 和 代的情况出现的多 ,所以从语言学角度而言并不能 SP T 树。 认为符合这样的模式就有指代关系 。从机器学习的 从表 4 可知 ,两句之内的树核的性能明显低于 角度看 ,模型总是把握概率比较大的事件。在一句 一句之内用树核 ,超过一句用原型系统的性能 。在 之内出现的符合指代模式的指代倾向于被认为有指 M T 树情况 ,后一个系统的 F 值得到了 78 . 7 % , 比 代关系 ,而对超过一句时 ,这种关系很多时候并不是 两句之内的树核高出了 2 . 9 % 。 指代关系 。所以使用两句之内的树核时 ,便引入了 实验数据说明 ,树核对于一句之内固定模式的 很多的噪音 ,而这种噪音非常强烈 ,以至于符合一定 代词指代有很好的识别能力 ,对于超过一句的代词 模式的都认为没有指代关系 ,从而召回率和准确率 指代性能反而下降。数据本身并不能说明结构的相 下降 ,导致两句之内的基于树核的模型性能反而 下降。 5 期王海东等 : 基于树核函数的英文代词消解研究 39 表 4 对于两句之内代词消解的结果 两句之内的树核 一句之内树核 + 超过一句使用原型系统 R/ % P/ % F/ % R/ % P/ % F/ % 原型系统 ()()61 . 3 147/ 240 75 . 4 147/ 193 67 . 6 ()()()()SP T 70 . 4 169/ 240 69 . 8 169/ 242 70 . 1 73 . 4 177/ 240 75 . 0 177/ 236 74 . 2 ()()()()M T 74 . 2 178/ 240 75 . 4 178/ 236 74 . 8 75 . 8 182/ 240 81 . 3 182/ 224 78 . 7 () 1994 . 20 4:5252561 . D Zelenko , C Ao ne , A Richa r della . Ker nel Met ho ds [ 6 ] 7 总结与展望fo r Relatio n Ext ractio n [ J ] . J o ur nal of MachineL ea r n2 () ing Re sea rch. 2003 2: 108321106 . 指代消解作为语篇理解的关键问题 ,国内外都M Zhang , J Zha ng , J Su , G Zho u. A Co mpo site Ker2 [ 7 ] 做了大量的研究。相比于其他方法 ,本文使用树核 nel to Ext ract Relatio ns bet ween Entitie s wit h bo t h 函数自动挖掘句法信息。本文分析了训练实例的过 Flat a nd St r uct ured Feat ures. Sydney [ C ]/ / A CL ’ 2006 : 8252832 . 滤和几种不同裁剪方法。实验表明 ,使用树核函数 Ya ng Xiao . Feng. , Su J . a nd Ta n C. L . 2006 , Ker nel2 [ 8 ] 能有效地解决代词的消解 ,并且通过对训练实例的 Ba sed Pro no un Re sol utio n wit h St r uct ured Syntactic 简单过滤可以很好地提高模型的性能 ,使得代词消 Kno wledge [ C ]/ / ACL ’ 2006 : 41248 , Sydney , J uly解系统的性能更好。 2006 . 本文下一步的工作是考虑如何在现有的句法树 M Collins , N Duff y. Co nvol utio n Ker nel s fo r Nat ural [ 9 ] 基础上裁剪掉冗余信息 ,相信去除掉更多的噪音能 L a nguage [ C ]/ / N IPS ,2002 . M Colli ns , N Duff y. New Ranki ng Algo rit hm fo r [ 10 ] 进一步提高系统的性能。同时对于冗余 it 的过滤 , Pa r sing a nd Tagging : Ker nel o ver Di screte St r uct ure , 同样可以考虑使用树核的方法。因为冗余 it 在英 and t he Vo ted Percep t ro n [ C ]/ / Proceeding of A CL , 文的句子中常有固定的表达结构 。 2002 . Cha r nia k. A ma ximum2ent rop y2inspired p a ser [ C ]/ / [ 11 ] 参考文献 :Proceedings of No rt h A merica n Chap t er of t he A sso2 ciatio n fo r Co mp utatio nal L ingui stic s a nnual meeti ng , [ 1 ] 王厚峰. 指代消解的基本方法和实现技术[J ] . 中文信2000 : 1322139 . () 2 Weinstein. Pro viding a uni息学报 , 2002 ,16 6: 9217 .[ 12 ] Gro sz , A . J o Shi , a nd S. Wee . Meng Soo n , Hwee To u N g and Daniel Chung [ 2 ] fied acco unt of defi nite no un p hra se s in di sco ur se Yo ng lim. A machine lea r ning app roach to co ref erence [ C ]/ / Proceedings of t he 21 st A nnual meeting of t he re sol utio n of no un p hra se [ J ] . Co mp utatio nal L i ngui s2 A ssociatio n fo r Co mp utatio nal L ingui stics , 1983 : 442 () tic s , 2001 ,27 4:5212544 . 45 . Vincent N g a nd Claire Ca r die. Imp ro ving machine Gro sz , A . J o Shi and S. Weinstein. 1995 . Centering : [ 3 ] [ 13 ] lea r ni ng app roache s to co ref erence re sol utio n [ C ]/ / a f ramewo r k fo r mo deling t he local co herence of di s2 ( ) Proceedings of t he 40t h A nnual Meeting of t he A ssoci2 co ur se [ J ] . Co mp utatio nal L ingui stic s , 21 2 : 2032 atio n fo r Co mp utatio nal L ingui stics , 2002 . 225 . ( ) [ 4 ] J . Ho bbs. Resolving p ro no un ref erences [ J ] . L ingua , [ 14 ] N g , V . 2007 . Shallo w sema ntics fo r co ref erence 1978 . 44 :3392352 resol utio n[ C ]/ / IJ CA I 2007 : 168921694 . [ 5 ] S. L appi n a nd H . L ea ss. A n algo rit hm fo r p ro no minal a nap ho ra re sol utio n [ J ] . Co mp ut atio nal L ingui stic s ,
/
本文档为【基于树核函数的英文代词消解研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索