为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

一种用于专利实体的实体消歧方法

2018-04-24 17页 doc 41KB 19阅读

用户头像

is_977556

暂无简介

举报
一种用于专利实体的实体消歧方法一种用于专利实体的实体消歧方法 文章编号:XXXX 一种用于专利实体的实体消歧方法 王琰炎~王裴岩~蔡东风 ,沈阳航空航天大学 知识工程与人机交互研究中心,沈阳,110136) 摘要:专利实体是用以表述专利、实用新型或外观设计的具有实际意义的实体,作为专利文本的核心内容,专利 实体是专利文本中最值得实体搜索用户关注的焦点。专利实体搜索是专利技术方案信息抽取的第一步,而专利实 体消歧是专利实体搜索中最重要的操作,是将具有领域歧义性的专利实体相关词,按照实体不同的领域含义,划 分为不同类别的过程。将实体搜索技术应用于中文...
一种用于专利实体的实体消歧方法
一种用于专利实体的实体消歧方法 文章编号:XXXX 一种用于专利实体的实体消歧方法 王琰炎~王裴岩~蔡东风 ,沈阳航空航天大学 知识工程与人机交互研究中心,沈阳,110136) 摘要:专利实体是用以表述专利、实用新型或外观的具有实际意义的实体,作为专利文本的核心内容,专利 实体是专利文本中最值得实体搜索用户关注的焦点。专利实体搜索是专利技术方案信息抽取的第一步,而专利实 体消歧是专利实体搜索中最重要的操作,是将具有领域歧义性的专利实体相关词,按照实体不同的领域含义,划 分为不同类别的过程。将实体搜索技术应用于中文专利摘要文本,并在实体搜索过程中使用了实体消歧技术,得 到用户最关注的实体相关信息。本文在充分了专利摘要文本的特点的基础上,提出一种面向专利实体的消歧 方法。本文使用基于IPC和向量空间模型的词向量表示法,结合凝聚式层次聚类算法,得到专利实体消歧结果。 根据对比实验的结果能够得出结论,本方法能够实现准确的实体消歧,评测结果高达78.9%。 关键词:专利实体、实体搜索、实体消歧、IPC、凝聚式层次聚类 中图分类号:TP391.1 文献标识码:A An Entity Disambiguation Method for Patent Entity WANG Yan-yan,WANG Pei-yan,CAI Dong-feng ( Knowledge Engineering Research Center,Shenyang Aerospace University,Shenyang 110136) Abstract: Patent Entity is a significant entity that used to express patents, utility models, and appearance design, as the kernel of patent text, patent entity is the absolute focus of entity search users. Patent Entity Search is the first step of Patent Information Extraction, and the entity disambiguation of patent is the most important operation of Patent Entity Search, which is divide relative words to different types according to different domains. Apply entity search technology to the abstract text of Chinese patent, make use of the technology of entity disambiguation, which can get the relative information that the user concerned. This paper propose a disambiguation method on the basis of analyzing the feature of the abstract text of patent adequately. Combined with HAC, this paper have gotten the result of disambiguation by using the word vector representation on the basis of IPC and Vector Space Model, combined with HAC. According to the parallel experiments, we come to the conclusion that the method could disambiguate accurately with the measure value of 78.9 percent. Key words:Patent Entity, Entity Search, Entity Disambiguation, IPC, HAC 专利文本是集技术情报、法律情报和经济情报于一体的实用知识载体,是极为重要的科技信 [1]息来源。专利实体作为专利文本中的核心对象,研究价值较高。专利实体的消歧是专利实体搜 索的核心步骤,目标是解决专利实体搜索中同名实体的歧义问题,帮助用户准确定位目标信息。 在专利文本的基础上进行实体消歧,就是将具有领域歧义的实体相关词按照不同的领域含义划分 为不同的类别。因此,专利实体上的歧义消解实际上就是目标词的聚类过程,消歧结果的好坏就 取决于聚类中目标词向量的原始特征选择。本文尝试了三种不同的特征选取方法,将目标词表示 成特征向量,再进行类别划分。经过实验验证,使用基于IPC分类的特征生成目标词向量的方法取得了更好的效果。 本文共分为5部分内容,第1部分介绍了国内外的相关研究,第2部分介绍了本文提出的三种相关词特征向量表示方法,第3部分介绍了使用聚类算法进行专利实体消歧的过程,第4部分则是实验和分析,最后一部分是本文得出的结论与展望。 1 相关研究 实体消歧问题是当下比较热点的研究问题,国内外的大多熟研究从两个角度解决实体歧义造成的影响,分别是通过寻求更高质量的特征和引入外部资源辅助消解。 [2]在特征选取方面,何正焱利用DNN(深度神经网络)方法,提出了一种文档和实体的相似 [3]度为框架的消歧模型;姜丽丽提出了一种基于带权图结构的框架来实现人物实体的消歧工作, [4]并使用实体标签对每个人物实体进行标注;Bagga和Baldwin将不同文档间上下文的相似度作为 [5]特征实现实体消歧的;R.Bekkerman和A.McCallum则结合了社交网络的链接信息和聚类两种非监督的框架对社交网络中的人物实体进行消歧。 给定的文档集中所包含的被査询人的信息往往是非常有限的,因此网络公共资源经常被用来 [6]挖掘更多的信息以提高同名消歧质量。其中,中科院的韩先培使用了在线知识库信息来辅助解 [7]决实体歧义的,D.Bollegara通过扩展查询词来对Web搜索引擎中的同名人物实体进行消歧; [8]R.Bunescu尝试使用在线百科全书(Wikipedia)的部分锚文本信息来扩充文档集,从而完成信息检测和同名消歧的任务。这些方法能够非常出色的完成实体消歧的任务,但是由于其需要花费大量的时间进行在线信息采集,因此更适合于服务器端的应用。 现在阶段的实体消歧研究集中在通用文本上,而专利文本上的实体,又与通用文本中的实体有本质的区别。因此,本文需要充分利用专利文本及专利实体的特点,并在通用的实体消歧方法的基础上进行优化。 2 特征向量表示方式 实体消歧的目标是对专利相关词解析并分类,利用向量空间模型(VSM)的思想,将相关词表示成特征向量的形式,再对它们进行消歧。 本文尝试了三种特征向量的表示方式,分别是利用基于TF-IDF的文档特征表示法、Word2vec词向量表示法,以及基于IPC分类的辅助表示法。 2.1 TF-IDF特征表示法 TF-IDF是一种利用词语的词频(TF)和反文档频率(IDF)特征的统计方法,主要思想在于,如果某个词在一篇专利文档中出现的频率TF高,而在其他文档中出现较少,则认为此词具有很好的类别区分能力。基于TF-IDF的特征权值选取方法,使每个特征维度代表一篇相关文档,将 ,每个目标词在每篇对应文档中的TD-IDF值作为对应维度上的特征值,表示形式如下。 i N,n(w),0.5,tf,idf,f(w,d),log ,iiin(w),0.5 其中,表示的是目标词w在专利文本中的词频,idf表示w在文本集上的反文档频率,dtfii 第30卷 第1期 沈阳航空航天大学学报 Vol. 30 No. 1 3 2014年2月 Journal of Shenyang Aerospace University Feb. 2014 ——————————————————————————————————————————— N表示专利文本集中的文本总数,则表示w在文本集中的文档频率。 n(w) 由于考虑到专利文本的长度对目标词在不同专利文本中的权重值影响较大,需要进行的向量的归一化操作。 2.2 Word2vec词向量表示法 [10][11]本文使用了由Google的Tomas Mikolov团队研发的Word2vec词向量生成工具,生成指定维度的目标词向量。 Word2vec工具是基于Deep Learning和神经网络模型,利用深度神经网络(DNN)的思想,通过上下文的分析,自动选取特征,并通过用户指定的参数,经过多次的迭代,训练出词向量。Word2vec常用的参数包含上下文窗口大小(Window)、向量维度(size)、训练架构选择(cbow)以及最低训练词频(min-count)等。 本文先利用分词工具和命名实体识别工具,将相关文档集进行分词和实体识别操作,并将经过分词和识别之后的文档作为word2vec工具的训练语料,进行词向量的训练。 2.3 IPC向量表示法 [12]IPC(国际专利分类)是目前国际上唯一通用的专利文献分类和检索工具,是一个复杂的 [13]层次结构分类系统,分为部、大类、小类、主组和分组5 个层次。例如,篇专利文本的IPC分类编号是A47B1/02,可按照IPC体系做如下分解。 表1 专利文本的IPC编号分解举例 分解片段 IPC层次 含义 部(最外层) 人类生活需要 A 大类 家具 A47 小类 桌子、写字台、抽屉、橱柜等 A47B 主组 可伸展的桌子 A47B1/00 分组(最内层) 有可插入的活板和固定框架的桌子 A47B1/02 基于IPC的特征选取方法是利用IPC体系中每个层次的类别特征,将实体相关词词表示成特征向量的形式。基于IPC的特征向量表示方法是利用IPC的5个不同层次的IPC类别作为特征。以IPC的最外层(部)为例,IPC的部有A~H类的8种特征,如下表所示。 表2 IPC的部的层次特征介绍 标识 表示含义 举例说明 A类 人类生活需要 A01:农业;A41:服装;A63:运动娱乐 B类 作业、运输 B27:木材;B64:航空、飞行器 收稿日期:2014-10-24 基金项目: 国家自然科学基金( 项目编号: 2012BAH14F00) 作者简介:王琰炎(1990—),男,辽宁鞍山人,硕士研究生,主要研究方向:人工智能与自然语言处理,E-mail:ffyan.yan@163.com;王裴岩(1983—),男,辽宁沈阳人,博士研究生,讲师,主要研究方向:人工智能与自然语言处理,E-mail:W83P27Y09@163.com C类 化学、冶金 C01:无机化学;C10:石油、煤气;C21:炼铁 D类 纺织、造纸 D03:织造;D21:造纸 E类 固定构造 E02:水利工程;E04:建筑物;E05:门窗、钥匙 F类 机械工程、照明、加热 F02:燃气机;F21:照明;F23:燃烧设备 G类 物理 G02:光学;G11:信息贮存;G21:核物理、核工程 H类 电学 H01:基本电气元件;H04:电子通信技术 其中,A~H类的每个特征向量的维度都是8,此时对于目标词w,其特征向量的形式是 ,向量的8个特征权值分别表示目标词w的上表中的8个类别,?,,,w,,,,,?,,AHABH 上的权重值。 使用类似于基于词语的TF-IDF的特征权值表示法,将基于单篇文档的特征更改为基于8种部的特征,将基于N篇专利文档的特征进行降维,从而将基于文档的特征映射到基于IPC的8种部的特征。于是权值的表示形式为: N,nw,0.5k,,,tf,icf,fw,c,log ,,,kkk,,nw,0.5k c其中,表示目标词在类文本中的词频,N是相关文档集大小,,,,,fw,ck,A,?,Hkk c表示的是目标词w在类文本中的文档频率。 ,,nwkk 同理,在IPC分类体系的大类和小类的层面上进行相同的特征选择,得到不同层次下的特征向量。本文在前三个层次的特征进行了实验,其中大类和小类的特征数目是123和629。 3 聚类分析 3.1 凝聚式层次聚类 实体消歧中对于实体相关词的划分,使用的是聚类的思想,将实体相关词利用VSM表示成特征向量之后,对这些目标向量进行聚类分析。由于对于聚类结果缺乏预知,无法预测目标词会分为几类,因此本文使用层次聚类来实现专利实体的消歧。根据层次分解的顺序是自下向上的还 [14]是自上向下的,分为凝聚的层次聚类算法和分裂的层次聚类算法,本文使用的是前者。HAC是一个自底向上的层次聚类过程,一开始将每个目标词都看做一个由单个词组成的小聚簇,然后不断地对簇进行两两合并的操作,直到所有聚簇都合并成一个类为止。实体的歧义消解过程中,将每个目标词作为聚类的对象,每个目标词用特征向量的形式表示,对这些目标词进行聚类的过程就是对这些特征向量聚类的过程,其中向量之间的距离衡量公式使用的是欧氏距离。 3.2 聚类终止条件控制 HAC的聚类过程需要通过阈值控制聚类的终止。本文选取6个不同的簇内相似度值水平k进行阈值控制,分别是0.5、0.3、0.1、0.001、1e-9和0,分别对应聚类终止控制策略的1~6层。 对于一个歧义实体,以这6个相似度作为层次聚类的终止条件得到6种聚类结果,分别采集每种聚类结果的详细记录,其表示形式如下: ,,recordi ,,record,k,clus_num,clus_rec,F iiii 第30卷 第1期 沈阳航空航天大学学报 Vol. 30 No. 1 5 2014年2月 Journal of Shenyang Aerospace University Feb. 2014 ——————————————————————————————————————————— 其中,表示第i层聚类结果的聚簇数目,是第i层聚类结果的F评价值;而Fclus_numii 则表示第i层的详细聚类结果记录,详细记录了每个聚簇包含的相关词数目以及簇内clus_reci 对象的相似度平均值,表示形式如下: ,,clus_rec,n:sim;n:sim;?;n:simii1i1i2i2i,clus_numclus_numii 随着层数的增加,相似度阈值逐层降低,聚簇数目逐层减少,每个聚簇内词语间的平均相似度值也逐层衰减,本文就是通过相似度的衰减程度来控制聚类的终止,本文尝试了几种衰减策略来控制,即最大值衰减、最小值衰减、平均值衰减,以及它们之间的融合衰减方法。 3.2.1 衰减程度 首先计算每个相似度水平k下的聚类结果中除1外的类内的目标相似度值。从第二层的相似度水平k=0.3开始,根据本层的类内相似度值和上一层的相似度值,计算衰减程度,第i,,Rei层的衰减程度的表示形式如下: simi,1,simi,,,, ,,Rei,,2,i,6,,simi 其中,和表示当前层和上一层的目标相似度值,可以表示当前聚类结果中簇sim,,i,,simi,1 ,,Rei内相似度的最大值、最小值或平均值。于是得到每一层的的三个衰减度、和,,ReiMinMax 。再通过实验选取合适的衰减阈值,当在第i层的衰减度大于该阈值时终止聚类,并将上,,ReiAvg 一层的聚类结果作为最终的消歧结果。 3.2.2 衰减融合策略 将三种衰减度中的两种以上加以融合,形成新的衰减策略,即衰减融合策略。共存在如表2的4种衰减策略。 表2 四种融合衰减策略 融合策略 策略说明 R 同时使用最大值策略、最小值策略 Max+Min R 同时使用最大值策略、平均值策略 Max+Avg R 同时使用最小值策略、平均值策略 Min+Avg 收稿日期:2014-10-24 基金项目: 国家自然科学基金( 项目编号: 2012BAH14F00) 作者简介:王琰炎(1990—),男,辽宁鞍山人,硕士研究生,主要研究方向:人工智能与自然语言处理,E-mail:ffyan.yan@163.com;王裴岩(1983—),男,辽宁沈阳人,博士研究生,讲师,主要研究方向:人工智能与自然语言处理,E-mail:W83P27Y09@163.com 同时使用三种策略 R All 例如,在表2所示的聚类结果中使用R的融合策略,此融合策略要求在每层的聚类结Max+Min 果中,两个衰减度和需同时满足和,若条件之一不满足就,,Ri,,Ri,,,,Ri,,Ri,,MinMaxMaxMin 终止聚类。其他三种融合策略的应用方法与R方法相似,只是使用的衰减度类型不同。 Max+Min 通过实验分别验证这四种融合策略对于实体消歧的有效性,并与前一节提及的三种使用单独的衰减度的策略进行对比,找出最佳的衰减策略应用于专利实体的消歧。 4 实验与分析 4.1 实验设置 本文使用的实验语料为来源于不同领域的2009-2010年的中文专利摘要,共92万篇。本实验使用了10个具有领域歧义性的查询词,每个查询词通过相关词检索和筛选,得到50个最相关的目标词语。每个查询(Query)都含有至少两个领域含义例如,领域概念“载体”具有3个领域含义,将实体相关词映射到“载体”的3种不同的领域含义上,并按照不同的领域含义对标注这些目标词,从而实现专利实体的歧义消解,的消歧结果如下表所示。 表3 “载体”的实体相关词的标注结果 相关词 标注结果 备注说明 抗体 1 生物医药类载体 1 生物医药类载体 DNA 基因 1 生物医药类载体 数据载体 2 数据通信类载体 信道 2 数据通信类载体 导体 3 工业领域载体 3 工业领域载体 POC金属载体 4.2 评价指标 专利实体消歧的目标是将实体相关词利用层次聚类的方法划分为不同的类别,因而使用聚类技术的评价方法评价实体消歧的有效性,本文使用的评价方法是基于人工判定的F-Measure值。 ,,,,P,P,P,?,PC,C,C,?,C已知实体相关词标注结果和聚类结果集,其中|P|,s12s12m表示标注结果中包含s个类别,表示聚类结果中包含的聚簇数目是m。计算每个标注类|C|,m PC别在不同聚簇下的准确率(Precision)、召回率(Recall)和聚类F值,其中聚类准确率、ji 召回率和F值的计算公式如下: P,CP,CjijiPreP,C,,RecP,C, ,,ji,,jiCPij 2*PreP,C*RecP,Cjiji,,,,FP,C,,, ji,,,,PreP,C,RecP,Cjiji 第30卷 第1期 沈阳航空航天大学学报 Vol. 30 No. 1 7 2014年2月 Journal of Shenyang Aerospace University Feb. 2014 ——————————————————————————————————————————— 从中挑选最优指标值以及与其对应的簇,并以该最优的指标值来判定的质量,每个标注类Pj 别的F值表示为。 P,,,,,,FP,maxFP,Cjjjii 本次聚类结果的最终F值的表示为: s1 ,,F,|P|*FP,jj,1|E|j 4.3 实验结果与分析 ?聚类终止条件的阈值控制 由于实体消歧的过程就是层次聚类的过程,需要控制聚类的终止条件得到最终的消歧结果。本文使用了3种单独的衰减方式(最大值衰减、最小值衰减、平均值衰减)以及它们之间相互融合的4种衰减方式,以控制了层次聚类的终止。7种衰减方式的聚类结果评价如下表所示。 表4 聚类终止条件控制结果展示 Max R R R R R RR MinAvgMax+MinMax+AvgMin+AvgAll 0.6724 0.6288 0.6586 0.6321 0.6297 0.6304 0.7565 从表中数据可得出结论,使用三种衰减方式相融合的衰减方式R得到最优的聚类结果。在All 此基础上,本文选取了4个候选的衰减度阈值0.2、0.3、0.4和0.5,分别在这4个阈值的基础上得出聚类的评测结果,如下表所示。 表5 不同衰减度水平的评价结果 0.2 0.3 0.4 0.5 0.7101 0.7485 0.7618 0.7887 从实验结果中可以看出,本文在使用三种衰减度融合的基础上,并使用衰减度阈值为0.5的情况下,得到最优的结果。 ?消歧评测结果 本文提出的专利实体消歧方法是基于IPC分类体系结合VSM生成相关词的特征向量,并利用HAC算法进行聚类分析的过程,因而本文提出方法的评价指标采用的是层次聚类的评价方法F-Measure。将TF-IDF的特征表示法作为Baseline;在word2vec的词向量表示法方面,使用了三种维度的特征向量表示;而在基于IPC的特征表示法方法则使用了IPC的三个层次进行特征向量 [3]的辅助生成。作为对比实验,本文引用了姜丽丽的基于文档的词语相似度方法。本文在十个查询中的结果如表6所示。 表6 十个查询词的F值 查询词 Baseline word2vec方法 共现度方法 IPC方法 收稿日期:2014-10-24 基金项目: 国家自然科学基金( 项目编号: 2012BAH14F00) 作者简介:王琰炎(1990—),男,辽宁鞍山人,硕士研究生,主要研究方向:人工智能与自然语言处理,E-mail:ffyan.yan@163.com;王裴岩(1983—),男,辽宁沈阳人,博士研究生,讲师,主要研究方向:人工智能与自然语言处理,E-mail:W83P27Y09@163.com size=200 size=250 size=300 P BC SC 病毒 0.7248 0.7571 0.7571 0.7571 0.9111 0.9843 0.992 1 缓冲器 0.3711 0.6599 0.6461 0.6461 0.6589 0.6122 0.6122 0.569 引擎 0.3882 0.5568 0.5568 0.5568 0.3515 0.7591 0.7542 0.7941 接口 0.6385 0.6989 0.6989 0.6989 0.6535 0.6858 0.6858 0.6858 种子 0.5488 0.6884 0.7793 0.7793 0.923 0.9389 0.9342 0.9389 粉碎机 0.4588 0.5277 0.5277 0.5277 0.6035 0.6817 0.7481 0.6986 过滤器 0.5304 0.4355 0.4627 0.4627 0.5587 0.6327 0.6993 0.6549 散热器 0.4128 0.4531 0.4531 0.4531 0.4959 0.7203 0.7683 0.752 牵引器 0.4822 0.4122 0.4122 0.4122 0.5792 0.7625 0.8326 0.7915 载体 0.5217 0.6357 0.6357 0.6357 0.6805 0.8213 0.8609 0.7936 Avg 0.5077 0.5825 0.593 0.593 0.6416 0.76 0.7887 0.7678 从实验结果可以看出,基于IPC的特征向量表示方法的聚类效果明显优于其他方法,且在IPC的3个层次上都获得了较好的歧义消解结果。总体上看,此方法在大类的层次上获得了最好的评价结果,因为在部的层次上,相关词的特征向量维度是8,在低维空间上较稠密,不利于实体的歧义消解;而在小类层次上,特征向量又比较稀疏,使一些具有较高领域相关度的词对,由于在很多特征维度上没有交集,使它们的相关度较低,未被聚到一起,而影响最终的消歧结果。 基于TF-IDF的方法能够反映的实体信息有限,大部分实体相关词都是专利术语,其对应的特征向量较稀疏,而特征向量的维度较大,在聚类过程中不利于形成明显的聚簇,使聚类的准确率降低。使用Word2vec工具生成的词向量,能够在一定程度上引入语义信息,但这种语义信息只是集中于一定范围的上下文中,对于信息较为分散的专利文本,并没有生成对歧义消解有帮助的特征向量。使用文档共现度的示法取得了不错的效果,但对于专利相关词之间的关系,文档共现信息不能完全体现词对的相关性。 5 结论与展望 本文提出了一种用于专利实体的实体消歧方法,在充分分析和利用专利文本特点的基础上,利用IPC分类体系对专利实体进行消歧分析。充分利用IPC分类编号的特点,按照领域的歧义性,对实体相关词进行类别的划分。本文在IPC体系的三个层次上分别利用词频、文档频率以及类别频率等特征,得到能够表达词语领域标识性的特征向量,再利用HAC算法对这些特征向量进行聚类,得到的聚类结果就是实体消歧的结果。同时,为了验证本方法的有效性,本文还引入了其他三种方法做对比,分别是基于TF-IDF的向量表示法、Word2vec词向量表示法以及文档共现度信息表示法。结果表明,本文提出的方法能够有效地实现专利实体的消歧。 下一步的工作中,将尝试在不同的IPC层次下的特征在领域不同上进行混合和筛选。例如,在IPC的部的层次上,G类和H类都是与物理工业相关的领域,可以考虑将二者合并;A类是“人类日常生活类”,其中包含的领域较复杂,可以考虑将A类特征按照不同领域进行分解等。这样,在新的IPC层次上进行实验,以期获得更好的效果。 第30卷 第1期 沈阳航空航天大学学报 Vol. 30 No. 1 9 2014年2月 Journal of Shenyang Aerospace University Feb. 2014 ——————————————————————————————————————————— 参考文献(References) [1] 邓要武. 科技、专利文献和标准文献资源检索与利用. 图书馆工作与研究[J]. 2008(7): 71-741 [2] Zhengyan He,Shuji Liu,Mu Li et al. Learning Entity Representation for Entity Disambiguation [C]. In proceedings of Association of Computational Language,2013:30-34 [3] 姜丽丽. 实体搜索与实体解析方法研究[D]. 兰州:兰州大学,2012. [4] A.Bagga,B.Baldwin. Entity-based cross-document coreferencing using the vector space model [C]. In Proceedings of the 36th Annual Meeting of the Association for Computational Linguistics and the 17th International Conference on Computational Linguistics (COLING-ACL), 1998:79-85 . [5] R.Bekkerman,A.McCallum. Disambiguating web appearances of people in a social network [C]. In Proceedings of the 14th International World Wide Web Conference(WWW),2005:463-470. [6] X.Han,L.Sun,J.Zhao. Collective entity linking in web test: a graph-based method[C]. In Proceedings of the 34th international ACM SIGIR Conference on Research and development in Information Retrieval ,2011:765-774. [7] D.Bollegara, Y.Matsuo, M.Ishizuka. Disambiguating personal names on the web using automatically extracted key phrases[C]. In Proceedings of the biennial European Conference on Artificial Intelligence(ECAI 2006),2006. [8] R.Bunescu,M.Pasca. Using encyclopedic knowledge for named entity disambiguation [C]. In Proceedings of EMNLP-CoNLL,2006(6):9-16. [10] T.Mikolov,K.Chen,Greg Corrado et al. Efficient Estimation of Word Representations in Vector Space [C]. In Proceedings of Workshop at ICLR,2013. [11] T.Mikolov,I.Sutskever,K.hen et al. Distributed Representations of Words and Phrases and their Compositionality [C]. In Proceedings of NIPS,2013. [12] 刘德馨,李有馥. 国际专利分类法评价[J]. 情报科学,1993,14(4):20-27. [13] 刘玉琴,桂婕,朱东华. 基于IPC知识结构的专利自动分类方法[J]. 计算机工程,2008,34(3):207-209. [14] 马晓艳,唐雁. 层次聚类算法研究[J]. 计算机科学,2008,34(7):34-36. 收稿日期: 2014-10-24 基金项目: 国家自然科学基金( 项目编号: 2012BAH14F00) 作者简介:王琰炎(1990—),男,辽宁鞍山人,硕士研究生,主要研究方向:人工智能与自然语言处理,E-mail: ffyan.yan@163.com;王裴岩(1983—),男,辽宁沈阳人,博士研究生,讲师,主要研究方向:人工智能与自然语 言处理,E-mail:W83P27Y09@163.com
/
本文档为【一种用于专利实体的实体消歧方法】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索