为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

自然语言信息抽取中的机器学习方法研究

2011-06-25 5页 pdf 554KB 73阅读

用户头像

is_148594

暂无简介

举报
自然语言信息抽取中的机器学习方法研究 计算机科学 。。 冲 · 自然语言信息抽取中的机器学习方法研究 周俊生‘沼 戴新宇‘ 尹存燕‘ 陈家骏 , 南京大学计算机软件新技术国家重点实验室 计算机科学与技术系 南京 ‘ 南京师范大学计算机科学系 南京 ’ 摘 要 信 息抽取是一种用 于处理各种 类型文本文档 的非 常有效的方 法 , 然而 建立一 个文本信 息抽取 系统却足非 常 困难和耗费时问的 。近年来 , 基于统计的机器 学习方法在信 息抽 取领 城的研 究受到 了广泛关注 。 本文深入探讨 了 当前 自然语言信 愁抽取领域广泛采用 的 几种 非 常有...
自然语言信息抽取中的机器学习方法研究
计算机科学 。。 冲 · 自然语言信息抽取中的机器学习研究 周俊生‘沼 戴新宇‘ 尹存燕‘ 陈家骏 , 南京大学计算机软件新技术国家重点实验室 计算机科学与技术系 南京 ‘ 南京师范大学计算机科学系 南京 ’ 摘 要 信 息抽取是一种用 于处理各种 类型文本文档 的非 常有效的方 法 , 然而 建立一 个文本信 息抽取 系统却足非 常 困难和耗费时问的 。近年来 , 基于统计的机器 学习方法在信 息抽 取领 城的研 究受到 了广泛关注 。 本文深入探讨 了 当前 自然语言信 愁抽取领域广泛采用 的 几种 非 常有效的统计学 习方法 , 比较分析 了各种方 法的统计推断过程和学习算法 及其优缺点 , 讨论 了各种 统计学习 方法所 面 临 的 训练语抖 脸乏 问的主要解决方法 , 并指 出 了今后 进 一 步研究的方 向 。 关链词 自然语言 , 信 息抽取 , 统计学习 , 命名 实体 口 一 , , 介 ‘ 、 一 , 一 ,决 , 沉 饭 , 名 ‘ 。呷 , ’ , 盆 加 , 以 一 , 记 证 王 · 亡 介 , 班 , , 门勺 引言 在当今信息爆炸的时代 , 大量的信息存在于 自然语言形 式的文档中 如果要使得这些文档能够被自动地处理和分析 , 这些文档首先必须要被转化为一种结构化的形式 , 才能使得 包含于文档中的各种“ 事实 ”信息可以被方便地访问和处理 , 从而给信息使用者提供有效的支持 。信息抽取研究正是在这 种背景下产生的 , 幻 信息抽取技术具有非常广泛的应用领 域 , 如可以将信息抽取应用于传统的信息检索系统和 搜 索引攀之中 , 在信息检索之后对相关的文本进行指定信息的 抽取 , 使单纯的信息查找过程进一步变成信息理解 匹配 过 程 , 从而把传统的信息检索系统变成智能系统 , 以用户更满意 的方式输出信息 除强烈的应用需求外 , 近几年来正在推动信 息抽取研究进一步发展的动力 , 则主要来自美国国家技 术研究所 组织的自动内容抽取 评测会议 这项 评测从 年 月开始酝酿 , 。。年 月正式开始启动 , 迄今 已经举办过四次评测 , 研究的主要内容是自动抽取新闻语料 中出现的实体 、 关系 、 事件等内容 , 即对新闻语料中实体 、 关 系 、事件的识别与描述闭 信息抽取虽然是一种用于处理各种类型文本文档的非常 有效的方法 , 然而建立一个文本信息抽取系统却是非常费时 费力的 。早期出现的信息抽取系统往往依赖于人们手工建立 的抽取规则或模式 ’ , 而由人建立的规则很难保证具有整体 的系统性和逻辑性 , 并且这些规则一般具有高度的领域相关 性和较差的可移植性 。 因此 , 迫切需要寻找更加有效的方法来 自动学习信息抽取的规则 , 这种形势使得机器学习在信息抽 取系统中的应用研究显得尤为重要和迫切 。近几年来在国外 , 机器学习方法在信息抽取领域的应用研究受到了广泛的关 注〔卜目 , 特别是对各种基于统计的机器学习方法的研究更是 热点 本文深入探讨了当前自然语言信息抽取领域广泛采用 的几种非常有效的统计学习方法 , 分析比较了各种方法的统 计推断过程和学习算法及其优缺点 , 并讨论了各种统计学习 方法所面临的标注语料匠乏问题的解决方法 , 最后指出了我 们今后进一步发展的方向 引 统计机器学习的基本问题 建模 在建立模型时 , 有两个相互影响的问题筋要着重考虑 怎 样参数化一个模型和怎样估计模型的参数值 。如果我们构造 的模型有太多的参数而太复杂 , 会导致模型过分依赖于训练 数据集 , 而不能较好地预测将来的其它实例 , 这种现象称为 “过配 ” 祀 相反 , 如果模型过于泛化 , 也会存在问 题 , 如一个过于泛化的语法模型所包含的规则可能生成任何 可能的字符串 , 这种现象称为“ 低配 ” 除 过配 与低配向题外 , 另一个建模的基本问题是选择“ 产生式 ” 模型还是“ 判别式 ” 汕面 。 模型 产生式模型 的学习过程就是估计隐变 的分布和描述其相互关系的参数 辨识的过程 通常产生式模型具有清晰的分层结构 , 而且学习 勿‘日 周俊生 博士研究生 , 主要从事自然语言处理 、信息抽取等方面的研究 截新宇 博士研究生 , 主要从事自然语言处理 、机器翻泽等方面的研究 。 尹存燕 博士研究生 , 主要从事自然语言处理等方面的研究 陈家骏 教授 , 博士生导师 , 主要从事自然语言处理 、机器翻译 、软件工程等方面的 研究 得到的模型很容易满足模型解释要求 而如果以识别为学习 的目的 , 学习得到的模型猫要尽量从样本数据中抽取共有的 特征 , 以得到正确的分类边界 , 这样的模型通常属于判别式模 型 , 它并不包含单一样本的具体特性 这个选择依赖于是否我 们在考虑建立一个能够生成语言的装置或语言的部分已经给 定 可被观察 的情形 , 在后一种情况下 , 建模的任务将是在供 一 选择的多个结构中进行判别 。 特征选择 主要有四种策略用于统计学习中的特征选择 第一种策 , ‘ 略称为“ 包装器方法 ” 。 ,“ , 它的思想是先生 成不同特征子集 , 然后通过执行学习算法和测量结果分类器 的准确性对各个子集进行评估 各个特征子集一般通过前向 选择或后向删除方法来生成 第二种策略是将所有可能的特 征包含到模型中 , 但对模型中的参数值引入一个惩罚值 , 这将 导致与无用特征相关的参数将变得非常小 , 甚至可能为砂吸 第三个策略是计算特征的某种相关性 , 然后删除相关性低的 特征 ·测度特征相关性一个最简单的方法是计算一个特征和 某类别的互信息 〕 不过 , 这种相关性测度方法却不能捕捉 特征之间的交互性 。另外几种方法 已经被提出用于确定这种 特征间的交互性 , 如 〔, 〕, 马尔可夫毯 等方法 第四个策略是先拟合一个简单的模型 , 然后 分析这个被拟合的模型以确定相关的特征 。 如 描述了 一个高效的算法用于对一个数据集拟合一个树结构的贝叶斯 网络 ’〕, 这个网络可以被用来分析以删除对类别影响较小的 特征 曰 信息抽取的统计学习方法比较 最大嫡方法 最大嫡原理其实就是遵循这样一个原则 “ 对 己知的建 模 , 对未知的不做任何假设 ” 等人于 年首次 将它应用于 自然语言处理的语言模型建立中〔, ’〕。 近年来 , 最 大摘方法开始被广泛地应用于命名实体识别等自然语言信息 抽取研究中’ , , 门 。 命名实体可细分为不同的类型 , 一般主要涉及到 种 人 物 、地点 、机构组织 、时间 、货币数量 , 另加上非实体标志 , 共 个元素构成标注集合 。最大摘方法将对命名实体的提取过程 转化为在一定的上下文 条件下对文本中词序列的标记过 程 。 即对给定的一个自然语言文本输入序列 衅 二 ⋯、 ⋯ 铆 , 确定一个对应的命名实体标注序列 才 。 ⋯ , 二 。, , 通过 最大摘模型可以在所有可能的命名实体标注序列中选择一个 具有最大概率的标注序列 砰 才 衅 为求出后验概率 才 衅 , 需对其进行分解以对输入 序列中的每一个词确定对应的命名实体标注一般为减小计 算的复杂性和考虑到实际的语言规律 , 可将每一个词的上下 文约定为围绕当前词 认 的一个受限窗口 士麦和其前面的两 个标注符号 , 这样 , 可将后验概率 才 衅 转化为下面的二 阶模型 万 了 ,研 一 耳 ‘一 , , 斌 一 。 ‘ 麦 , 成士圣 二 沼 , 一 而最大摘模型是一种用于对后验概率 户 ‘二丢, 试士劲 进行建模的成熟模型 最大嫡模型不依赖语言模型 , 独立于特 定的任务 , 并且由于最大嫡方法善于将各种不同的知识结合 起来 , 因此最大嫡模型比一般的统计模型能获取到更丰富的 不受限文本特征 , 诸如可以灵活地把一些跨距离的特征加入 到模型中去 , 能达到较好的识别效果 , 比较适合于信息抽取中 分类问题的解决 。 但最大嫡模型的一个明显缺点是计算量巨 大 , 同时它也可能出现数据稀疏问题 , 需要进行平滑处理 隐马尔可夫模型方法 隐马尔可夫模型可以看成是有穷状态自动机 , 它通过定 义观察序列和标号序列的联合概率对生成过程进行建模 每 一个观察序列可以看成是由一个状态转移序列生成 , 状态转 移过程是从某一初始状态开始 , 当到达某一预先指定的结束 状态为止 , 在每一个状态将随机产生一个观察序列的一个元 素 用 来解决信息提取的一般途径是 每个域 待提取 的每个语义项称之为域 对应一个或多个状态 , 原始文本中的 符号作为状态的输出符号 , 如果模型给定 , 那么信息提取过程 就是搜索最可能创建符号序列的状态序列川 , ‘幻 这个向题可 以由 算法通过动态规划解决伽〕 , 尽管 被广泛使用 , 但它和其它产生性模型一样并 不是用于标注序列化数据的最佳模型 产生性模型定义了标 号序列和观察序列的联合概率 , 定义这样一个联合概率意味 着所有可能的观察序列都应该被枚举出来 , 然而如果观察元 素间具有长距离依赖性 , 这个任务将是很困难的 。 因此 , 对于 产生性模型而言 , 为了保证推导的正确性 , 应该作出严格的独 立性假设 事实上 , 大多数序列数据都不能被表示成一系列独 立的元素 , 往往在观察元素之间存在长距离依赖性 , 这样的数 据更适宜于被允许这种依赖性的模型所表示 , 从而使观察序 列被表示成一系列的非独立的 、重叠的特征 最大嫡隐马尔可夫模型方法 最大嫡马尔可夫模型是对 的一种改进脚 , 它试 图克服 的上述缺点 。 在 中 , 传统 的 转换函数和观察函数被单个函数 尸 , , , 。 所替代 , 这个函数 给出了在给定以前的状态 和当前的观察 。 的条件下转移到 当前状态 的概率 。 从 练数据中学习 , , , , 它是通过使用最大嫡方法来使得该模型最大可能地与训练数 据中的特征约束保持一致 , 这使得 尸 , , ‘ , 具有如下的指数 形式 尸 , , 。 一 万行共二 习凡几 。 , , 、口 , 产 。 月叹 其中 , 凡 是需要被学习的参数 , , ,‘ 是一个归一化因子 每 一个 几 是一个布尔特征值 , 它依赖于状态 , 和输入观察序列 车 的任何特征 , 如“ 。 以一个数字开始 ” 、“ 口 以一个问号结束 ” 。 由于最大嫡马尔可夫模型结合了隐马尔可夫模型和最大 嫡模型的优点 , 它允许状态转移可以基于输入序列中非独立 性特征 因而使用 模型处理 自然语言的信息抽取任 务时 , 性能明显优于 和无状态的最大摘模型 〕但是 模型和其它判别性有限状态模型一样 , 在特定情形 下都存在一个共同的问题一标注偏置问题 离开一个给定状态的转移仅仅彼此竞争 , 而不会与模型 中的其它转移竞争 , 按概率术语 , 转移值是在给定当前状态和 观察序列条件下的条件概率 。每个状态的转移概率值的归一 化意味着一种“转移概率值总量的守恒 ” , 由此 , 到达一个状态 的总量应该在所有可能的后继状态之间分配一个观察值可 能影响哪一个 目标状态获取转移概率总金 , 但并不会影响传 递多少总量 , 这就会引起一个向着带有更少分支转移的状态 的偏置 。 系件随机场方法 一 针对 的标注偏置问题 , 等人提出了一 个条件随机场 的概率模型来克服标注偏置问题 〕 条件随机场是一种用于在给定了指定的输入结点值时计算指 定的输出结点值的概率的无向图模型 。 若 是一个“ 输入 ”随 · · 机变 的集合 , 且它们的值可以被观察 , 是一个“ 输出 ”随机 变 的集合 , 它们的值是要求模型能够预测的 这些随机变 之间通过指示依赖关系的无向边所连接 , 让 , 表示这 个图中的团 的集合 , 根据 一 定 理 , 。将在给定一系列输入随机变量值的情况下 , 一系列 翰出随机变 值的条件概率定义为与无向图中各个团的势函 数 的乘积成正比 , , 、 厂 气 育 乙 叭 , 以 心 刀一 其中 , 电 , 认 表示是团 的势函数 , 一般定义为团的所有 特征的带权和的指数形式 , 叭 。 , 一 习二、几 儿 , ’ , 是一个归一化因子 月 图 链状 的图形结构 非阴影节点表示的观察值 并不是由模型产生 在图形模型中的各指定翰出结点被边连接成一条线性链 的特殊情形下 如图 , 。 假设在各个输出结点之间存在 一阶马尔可夫独立性 , 这种 可以被理解为条件训练的 有限状态机 。 由于这种类型的 是对 的一种全局归一化扩展 , 因此 , 它较好地解决了 。 中 存在的标注偏 问题 。 若让 。 , 。 , ⋯ , 沂 表示被观察的物入数据序列 , 如 文本文档中的词序列 。 表示一个 的状态集合 , 每一个 状态均与一个标号相关 , 让 , 二 , , , ⋯ , 打 表示一个状态序 列 。图中的各个团现在被限制为仅包含序列中相邻的状态对 认一 , , 但在物入结点之间 。 的连接并不受限制 。这样 , 在一 个输入序列给定的情况下 , 线性链的 定义状态序列的 条件概率为 盆 一组关键的训练样本来确定 。在核方法中样本保留了它们的 原始表示形式 , 在算法中仅仅通过计算一对样本对象间的核 函数的方式使用样本对象一个核函数是一个满足一定特性 的相似函数 , 更准确地说 , 一个在对象空间 上的核函数 是一个二元函数 , 〔。, 〕, 它映射一对对象 , 任 到它们的相似值 , 刃 , 一个核函数要求必须是对称的 和半正 定的 而 址 任何核函数均在高维的 特征空间中隐式地计算对象的特征向 的点积 , 也就是说 , 若 存在特征 · · , 几 , ⋯ , 五 , ‘ , 则 ’ , , 刃 在许多情况下 , 不用枚举出所有的特征也可以 计算出某些特征的点积 在 自然语言处理中典型的例子有关 于子序列核伽 〕和解析树核 的例子 如在子序列核的例子 中 , 对象是宇符申 , 核函数计算在两个宇符申中存在的公共宇 符子序列的个数 尽管特征的数 是指数级的 , 但子序列核的 计算仍可以在多项式时间内完成 因此在核方法中可以充分 利用宇符申中的长距离特征 , 而不裕要明确地枚举出这些特 征 。 提出了一个基于核方法的机器学习方法用于信 息抽取中的关系抽取 , 他首先在文本的浅层解析表示的墓 础上定义了核 , 并了一个用于计算核的高效的动态规划 算法 然后分别应用支持向 机 和表决感知器 算法实现信息抽取 , 实验显示这种核方法导致了 非常好的性能 从机器学习系统设计的观点看 , 核方法是将焦点从特征 选择问题转移到核的构造问题 , 由于在一个核学习系统中核 是唯一与领域相关的构件 , 因此设计一个能充分封装用于预 测的各种信息的核是非常关健的 。另一方面 , 由于在核计算中 长距离依赖性的使用 , 使得基于核的算法比墓于特征的算法 能够搜索更大的空间 但使用核方法还豁要进行数值优化 , 当 前用于支持向 机 的各种估计方法不能具有较好的 伸缩性 , 因此 , 恰当的训练对于某些应用而言可能还不可行 。 自均 。 , 。 、 , 甲 甲 , , , 厂孟 、 , 芍尸 气‘曰 ‘ 心 叭儿一 , ’ , , 少少 ‘ , 汤 其中 , 人 一 , ‘ , 。 , 是一个任意的特征函数 , 凡 从一 到 变化 是一个据要被学习的对应每个特征函数的权值 。一般 而言 , 特征函数可以对输入序列提出任意的问题 , 包括询问前 面的词 、后面的词以及它们的联合 。 模型与 昌 模型的主要区别在于 在一个最 大摘马尔可夫模型中 , 对每个状态均定义一个指数模型作为 在给定当前状态时下一状态的条件概率 而一个条件随机场 模型仅使用一个指数模型作为在给定观察值序列的条件下整 个标号序列的联合概率 , 因此 , 在条件随机场模型中不同状态 的不同特征的权值可以彼此平衡 汤 等人将条件随 机场模型应用于命名实体识别 、文本浅层分析等信息抽取任 务的实验〔‘川 , 实验结果显示该模型具有良好的性能 核 晚 , 的方法 前面的几种机器学习方法均是从训练数据中抽象和构造 出一个模型 , 它的各个参数都裕要从训练数据中估计 , 因此可 以说这些不同的实例化模型其实是对训练数据的一个总结 另外 , 前面各种学习方法均依赖于对象的特征表示 , 一个对象 通常被转换成一系列特征 , ⋯ , 方 , 而在许多情况下 , 数据 并不便于通过特征来表达 。 核方法则是一种完全不同的方法 , 它的模型可以通过 多种机器学习方法的集成 在过去的十年中有一个重要发现 , 即如果将多种不同的 学习模型组合成一个集成系统 , 则系统的性能经常会得到明 显改善 〕, 当前对各种集成技术 如 , 吨 和 运 兽事的研究非常热门 , , , , , 〕它们的墓本思想是所有的学 习模型都在某些方面有所偏 , 而通过对多个不同的模型的 平均 , 可以有效地消除这些偏 。 在自然语言处理领域 , 集成方法已经应用到词性标注 、语 法解析 、文本分类和信息抽取等多个领域 利用多‘ 分类器组合的方法设计了一个命名实体识别系统山 , 在该集 成系统中包含了一个隐马尔可夫模型的分类器 、一个最大摘 分类器和一个荃于规则的分类器 基于转换的学习分类器 等 四个分类器 。各个模型均通过对文本中的每个词斌予一个该 词在一个命名实体中的位 标注来确定命名实体 , 多个模型 可以通过对当前正在处理的分类间题以投票的方式进行组 合 , 另外也可以对每一个组成模型按照其对侧试集的性能斌 以一定的权值一般 , 若给定 , 个分类器 , 各分类器的组合框 架可以被定义为如下形式的组合概率分布 尸 了。 , 口 二 只 。 , 口 ‘ 卜 。 其中 , 表示第 ‘个分类器的分类物出 , 是一个组合函数 。 当前广泛使用的组合是对各分类器的类别概率分布进行 线性擂值 川 翻 一 , 口 一 习尸 一 , ‘, ‘一。 习只 一二 , 。 、 权值 入 切 表征了对于词 的上下文 , 第 个分类器在 组合中的重要程度 , 尸 , , 是在给定第 个分类器对词 的输出是 的情况下 , 正确分类结果是 的概率的估计 。 采用了五种不同的方法对各插值参数进行估计即 〕, 实 验结果表明 几乎在各种情况下 , 集成方法都产生了最好的查 准率和查全率 但代价是集成方法极大地增加了由于参数估 计所带来的计算负担 另外 , 集成模型将系统的复杂性提高到 极点 , 使其很难被解释 现有研究成果也表明 , 当多学习模型 集成中的个体学习模型差异较大时 , 集成的效果会较好 。 弱指导学习 统计学习方法在信息抽取中比基于规则的学习方法具有 优越性 , 但当前各种统计学习方法均面临一个困境 , 即需要大 的标注语料的支持 , 而创建新的标注语料库资源是十分高 代价的 因而 , 近年来有许多研究聚焦于如何从现存的小规模 协 已标注语料通过 自扩展 方法生成大规模的标 注语料库 。 提出了一种将相对少量的手工标注语料与大 的未标注语料组合的方法山 , 称之为互助训练 一 。 。一 方法可以非形式化地描述为 首先为一个 分类问题选择两个或更多的视图 , 然后为每一个视 图建立一个独立的模型 , 并基于少量的标注数据训练每一个 模型 接下来从未标注数据集中选择被每一个模型独立地以 高可信度标注的数据样本 , 并将这些样本看成是有用的训练 样本 , 不断地迭代这个过程直至整个未标注数据集为空时结 口咬 束 在 一 方法中 , 各个模型所学到的特征是相互独 立的 , 同时各个模型在学习过程中相互帮助 , 把各自学到的东 西交给对方 , 使各自的学习成果进一步提高 。 将 。 ‘ 方法应用于命名实体的识别 〕, 他提 出荃于 。 思想的 算法来解决命名实体的识别问题 , 称之为 。一 , 将标注样本的特征空间分成构造特征 和上下文特征 尽管类似于 一 运 的学习方法在一定程度上提高了定义在不同特征空间的 弱分类器的分类准确性 但是它还是存在着一些缺陷 , 如要求 必须满足特征空间的冗余性伽 〕等 另一种广泛使用的弱指导学习方法是主动学习 咬 垃 卿〕 ·主动学习的核心思路就是在机器学习中考虑到 不同样本对最后分类器的作用其实是不一样的 , 我们称这种 作用为样本的信息 , 样本含有的信息量越大 , 对分类结果的 , 确定越重要 。主动学习算法主动在未标注样本集中选择测试 例子 , 并将这些实例以一定的方式加入到训练集中 主动学习 明显不同于 一 川 的是 当对某个例子两个 或更多视 图 都预测产生不同的标注时 , 则将那个例子提交给人进行标 注 提出了一种基于两个视图的有效的主动学习方 法 , 称之为 一 方法 , ‘〕在该方法中 , 分别对应于 两个视图的两个分类器首先在可利用的标注数据上分别进行 训练 , 然后 , 将它们运行于未标注数据 , 这样就产生了一个实 户 例的不确定集合 , 位于这个集合中的实例将 被随机地抽取以提交给人进行标注 在两个分类器将保持不 变的情况下 , 这个过程将不断重复 在一个用于抽取各 , 语义类的名词短语的信息抽取系统中对 一 方 法进行了改进 , 〕, 他结合 过 的思想 , 使用标注数据 和未标注数据来共同建立分类器 另外 , 还尝试使用不 同的策略从不确定集合选择最好的实例 。 结束语 当前 , 机器学 习方法在信息抽取领域的应用研 究受到了广泛的关注 , 特别是对各种基于统计的机器学习方 法的研究更是研究热点 统计学习方法在信息抽取中具有优 越性 , 一些实验数据表明 , 基于各种统计学习方法的系统的查 准率和查全率一般都达到或超过了荃于规则的系统所能达到 的水平 但统计学习方法也存在不足 , 本文认为它存在下列发 展趋势 首先它的模型 、算法还需要不断改善 统计学习归根到底 是一个优化问题 , 只能在人预先规定的范围内选择一个最优 解 , 或近似最优解 , 如何将人工规则加人到统计模型 中 , 特别 是如何将各种语义约束规则加入到模型中是需要进一步研究 的内容 再者 , 当前统计学习方法主要是有指导的学习方法 , 因而 都面临着标注语料的医乏问题 而语料库的人工标注是一件 很费时费力的工作 , 尤其是针对汉语语料库的标注工作 , 迄今 为止可利用的汉语语料库资源又很有限 , 大规模语料的获取 与加工成为统计学习技术面临的最大困境 。 主动学习方法是 目前用于减小语料标注代价的一种有效方法 , 但 目前的各种 主动学习方法均是墓于单个学习模型的 , 如果将这种基于单 个模型的主动学习方法扩展为基于集成 的主动学 习 , 一定会进一步减少语料标注的代价 此外 , 虽然当前各种实验数据均表明使用多学习器集成 的方法能够比使用单个学习器的系统具有更好的性能 , 并且 近年来提出了针对各种广泛使用的集成方法的有效性的理论 解释 , 但目前依然还缺乏一个支持各种集成方法的统一理论 框架 , 如果能为多学习器的集成建立一个统一的理论框架 , 不 仅可以为集成技术的理论研究提供方便 , 还将有利于促进其 应用层面的发展 参 考 文 献 公 〔 , , 〕 卜 , , , , , 一 名 随 一 一 , , , , , , 川 一 , 一 , 叮 扭 , 〔 〕 , · 玩 · , 沁 , , · 、 一湘 , , 元一 , , 一 ‘ , 伽 , 丫 一 而 杭 ‘ · · · , · · 卜 · 班 , 下粉第 万 · · , 名 称位里 为空 , 表示没 有采用该 本体 中的技 术 , 其 数据特 点是 间共 享信 息提供 平台 , 使他们 的工作 彼此 不再独 立 。 当前 节 点的数 据特征 当处 理完 生成树 同一 层次 中最后 一个 本文 中 , 我们 在概 念上探 讨将本 体引 入数据 挖掘方 法中 , 叶节 点时 , 表明在 该阶段 的所有 可能 的技术 组合都 已经考 虑 , 并对 数据 挖掘方 法本 体和 其相关 算法 进行 了初步 设计 , 目的 可 以进行 下一阶 段操作 既考虑 子类 集合中 的下一 个子类 , 直 在于 帮助 数据 挖掘工 作者 在工作 过程 中 , 面 对如 何选择 数据 至将 集合 中的所 有子 类都遍 历之 后 , 我 们也 将生成 相应 的生 挖掘 技术 时不再 困惑目前 , 我们 已经 在动 手建立 部分 本体 , 成树 了 以实 现本 文中所 提出 的算 法 , 同 时在着 手设 计对 得到的 方案 · 翁簇撇 纂霜的有序针 ’ 二 ” ’ 。 计划 华里暴蓖着馨翼禁氰地 共享 知识发 现成 果 , 实 愧监 上蕊忌 招井得到二 的叶子节点集合 现所 谓的 网络外 延性 , 我们 将基 于课题 项 目设计一 个原 型系 忱 坏 必 数据特征 · 前提 排斥 名称 袅 奎 肯 翻, · 名称 , 仓 · 效果 , 必 · 排斥 萝 一 , 入 徽 ‘生成禁熟寰黯泉 烈堵终爵禁籍款滩技 吵怜衅之交 的知解程与秒科学 。木学当版社 , 周肖彬 , 曹存根 · 基于本体的 医学知识获取 · 计算机 科学 , , 砰嘿 , , 竺攀据持征丈 挑斥卜 ⋯ ‘ ⋯ 隽成丁个 役育名杯的新节点 , 表示役有 米用。 中的任何技术 · , 拍 , , 」 , · , , , , 二 ⋯ 。 , 。 , , , , 。 、 ,’ 兮罗 ,, 〔, ’ 几 ‘ 乙 , , 八 ‘ ’ 上, , 。 ’ 二 二 、 ‘ , ” , 一了 ‘ 我 们对 二进 行。历 生成 所有最 长路 径 , 一 条最长 路径 上 ‘ 盆二真艺翼纂尝器 沈二鉴篆黑 糕 菜 兔黑井 的所有 节点 , 即为一 个可执 行计 划方案 中所有 细节 。 总 结 数据 挖掘是 一个 由多 个阶 段组 成的 知识 发现 过 ”溉少产士竺兜 “ 即 “ 高‘ ‘ 。 ‘ ‘ 二 、 “ 月 子 受 义 育 口 〕 声 联 个 二 ,‘ 孟 程 , 在每 个阶段 那有 很多的 相关技 术 · 随 着数据 挖掘技 术在 商 氏 , , 托 一 业 领域 中的 日益普 及 , 越 来越 多的新 技术 被提 出来 , 此时 , ‘ 尹 · 不 论是 数据 挖掘领 域的 专家还 是新 手 , 都 可能会 忽略 有用 的 淤粼瓷念纂呼念二万 豁欺呈默片矍黑 穿掇谈技 术 为此 ,我 们提 出为数 据挖 掘方 法建立 本体, 来解 决上述 一 一 。 黯募装轰黑黔霎黔黑惹撬瞿置 蒸暑巍燃戴撇燕囊蒸鞘愚 口阵 一 上接第 页 贬 一 ‘ ⋯攀⋯轰, , · · · 帅乒吐 ‘全少尸记 ‘ ’ ,‘ “ , · , , 州 瞥户 吸 臀 , 鸭 , ‘尹, 一 七 八 ‘ 人 、 几 一 甘 爪 · 广、 ‘ “ 岭 卿 吧 , 今 , “, 飞 ‘ · 乒 ‘沙 犷于‘竺‘ 吵佗今 , ‘ , 乓弊 护少 黔 柱‘尹‘映 〕 · 玩 , ” , , 搜哄 只 “ 。 卿 ‘ · ‘‘ , ‘ “ , 心 压 盆 长 压 厂 止 吕 , 犷 压 遥 一 七 , 八 ,二 竹 们 、 七 、 且少 与 一 ‘ 幼 石 介 , , , 一 ‘ · 几 · , · , 主 谊 · · , 垃 , · · , , , , , 协 , 一 , , · 吕 公 】 卜 面 , , 垃 , , , , 一 , ,
/
本文档为【自然语言信息抽取中的机器学习方法研究】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索