计算机科学 。。 冲
·
自然语言信息抽取中的机器学习
研究
周俊生‘沼 戴新宇‘ 尹存燕‘ 陈家骏 ,
南京大学计算机软件新技术国家重点实验室 计算机科学与技术系 南京 ‘
南京师范大学计算机科学系 南京 ’
摘 要 信 息抽取是一种用 于处理各种 类型文本文档 的非 常有效的方 法 , 然而 建立一 个文本信 息抽取 系统却足非 常
困难和耗费时问的 。近年来 , 基于统计的机器 学习方法在信 息抽 取领 城的研 究受到 了广泛关注 。 本文深入探讨 了 当前
自然语言信 愁抽取领域广泛采用 的 几种 非 常有效的统计学 习方法 , 比较分析 了各种方 法的统计推断过程和学习算法
及其优缺点 , 讨论 了各种 统计学习 方法所 面 临 的 训练语抖 脸乏 问
的主要解决方法 , 并指 出 了今后 进 一 步研究的方
向 。
关链词 自然语言 , 信 息抽取 , 统计学习 , 命名 实体
口
一
,
,
介 ‘ 、 一 , 一
,决 , 沉 饭 , 名 ‘
。呷
,
’
, 盆
加 , 以
一 , 记
证
王
·
亡
介 , 班 ,
, 门勺
引言
在当今信息爆炸的时代 , 大量的信息存在于 自然语言形
式的文档中 如果要使得这些文档能够被自动地处理和分析 ,
这些文档首先必须要被转化为一种结构化的形式 , 才能使得
包含于文档中的各种“ 事实 ”信息可以被方便地访问和处理 ,
从而给信息使用者提供有效的支持 。信息抽取研究正是在这
种背景下产生的 , 幻 信息抽取技术具有非常广泛的应用领
域 , 如可以将信息抽取应用于传统的信息检索系统和 搜
索引攀之中 , 在信息检索之后对相关的文本进行指定信息的
抽取 , 使单纯的信息查找过程进一步变成信息理解 匹配 过
程 , 从而把传统的信息检索系统变成智能系统 , 以用户更满意
的方式输出信息 除强烈的应用需求外 , 近几年来正在推动信
息抽取研究进一步发展的动力 , 则主要来自美国国家
技
术研究所 组织的自动内容抽取 评测会议 这项
评测从 年 月开始酝酿 , 。。年 月正式开始启动 , 迄今
已经举办过四次评测 , 研究的主要内容是自动抽取新闻语料
中出现的实体 、 关系 、 事件等内容 , 即对新闻语料中实体 、 关
系 、事件的识别与描述闭
信息抽取虽然是一种用于处理各种类型文本文档的非常
有效的方法 , 然而建立一个文本信息抽取系统却是非常费时
费力的 。早期出现的信息抽取系统往往依赖于人们手工建立
的抽取规则或模式 ’ , 而由人建立的规则很难保证具有整体
的系统性和逻辑性 , 并且这些规则一般具有高度的领域相关
性和较差的可移植性 。 因此 , 迫切需要寻找更加有效的方法来
自动学习信息抽取的规则 , 这种形势使得机器学习在信息抽
取系统中的应用研究显得尤为重要和迫切 。近几年来在国外 ,
机器学习方法在信息抽取领域的应用研究受到了广泛的关
注〔卜目 , 特别是对各种基于统计的机器学习方法的研究更是
热点 本文深入探讨了当前自然语言信息抽取领域广泛采用
的几种非常有效的统计学习方法 , 分析比较了各种方法的统
计推断过程和学习算法及其优缺点 , 并讨论了各种统计学习
方法所面临的标注语料匠乏问题的解决方法 , 最后指出了我
们今后进一步发展的方向 引
统计机器学习的基本问题
建模
在建立模型时 , 有两个相互影响的问题筋要着重考虑 怎
样参数化一个模型和怎样估计模型的参数值 。如果我们构造
的模型有太多的参数而太复杂 , 会导致模型过分依赖于训练
数据集 , 而不能较好地预测将来的其它实例 , 这种现象称为
“过配 ” 祀 相反 , 如果模型过于泛化 , 也会存在问
题 , 如一个过于泛化的语法模型所包含的规则可能生成任何
可能的字符串 , 这种现象称为“ 低配 ” 除 过配
与低配向题外 , 另一个建模的基本问题是选择“ 产生式 ”
模型还是“ 判别式 ” 汕面 。 模型 产生式模型
的学习过程就是估计隐变 的分布和描述其相互关系的参数
辨识的过程 通常产生式模型具有清晰的分层结构 , 而且学习
勿‘日
周俊生 博士研究生 , 主要从事自然语言处理 、信息抽取等方面的研究 截新宇 博士研究生 , 主要从事自然语言处理 、机器翻泽等方面的研究 。
尹存燕 博士研究生 , 主要从事自然语言处理等方面的研究 陈家骏 教授 , 博士生导师 , 主要从事自然语言处理 、机器翻译 、软件工程等方面的
研究
得到的模型很容易满足模型解释要求 而如果以识别为学习
的目的 , 学习得到的模型猫要尽量从样本数据中抽取共有的
特征 , 以得到正确的分类边界 , 这样的模型通常属于判别式模
型 , 它并不包含单一样本的具体特性 这个选择依赖于是否我
们在考虑建立一个能够生成语言的装置或语言的部分已经给
定 可被观察 的情形 , 在后一种情况下 , 建模的任务将是在供
一 选择的多个结构中进行判别 。
特征选择
主要有四种策略用于统计学习中的特征选择 第一种策
,
‘ 略称为“ 包装器方法 ” 。 ,“ , 它的思想是先生
成不同特征子集 , 然后通过执行学习算法和测量结果分类器
的准确性对各个子集进行评估 各个特征子集一般通过前向
选择或后向删除方法来生成 第二种策略是将所有可能的特
征包含到模型中 , 但对模型中的参数值引入一个惩罚值 , 这将
导致与无用特征相关的参数将变得非常小 , 甚至可能为砂吸
第三个策略是计算特征的某种相关性 , 然后删除相关性低的
特征 ·测度特征相关性一个最简单的方法是计算一个特征和
某类别的互信息 〕 不过 , 这种相关性测度方法却不能捕捉
特征之间的交互性 。另外几种方法 已经被提出用于确定这种
特征间的交互性 , 如 〔, 〕, 马尔可夫毯
等方法 第四个策略是先拟合一个简单的模型 , 然后
分析这个被拟合的模型以确定相关的特征 。 如 描述了
一个高效的算法用于对一个数据集拟合一个树结构的贝叶斯
网络 ’〕, 这个网络可以被用来分析以删除对类别影响较小的
特征
曰 信息抽取的统计学习方法比较
最大嫡方法
最大嫡原理其实就是遵循这样一个原则 “ 对 己知的建
模 , 对未知的不做任何假设 ” 等人于 年首次
将它应用于 自然语言处理的语言模型建立中〔, ’〕。 近年来 , 最
大摘方法开始被广泛地应用于命名实体识别等自然语言信息
抽取研究中’
,
, 门 。
命名实体可细分为不同的类型 , 一般主要涉及到 种 人
物 、地点 、机构组织 、时间 、货币数量 , 另加上非实体标志 , 共
个元素构成标注集合 。最大摘方法将对命名实体的提取过程
转化为在一定的上下文 条件下对文本中词序列的标记过
程 。 即对给定的一个自然语言文本输入序列 衅 二 ⋯、 ⋯
铆 , 确定一个对应的命名实体标注序列 才 。 ⋯ , 二 。, , 通过
最大摘模型可以在所有可能的命名实体标注序列中选择一个
具有最大概率的标注序列
砰 才 衅
为求出后验概率 才 衅 , 需对其进行分解以对输入
序列中的每一个词确定对应的命名实体标注一般为减小计
算的复杂性和考虑到实际的语言规律 , 可将每一个词的上下
文约定为围绕当前词 认 的一个受限窗口 士麦和其前面的两
个标注符号 , 这样 , 可将后验概率 才 衅 转化为下面的二
阶模型
万
了 ,研 一 耳 ‘一 ,
,
斌 一 。 ‘ 麦
, 成士圣
二 沼 , 一
而最大摘模型是一种用于对后验概率 户 ‘二丢, 试士劲
进行建模的成熟模型 最大嫡模型不依赖语言模型 , 独立于特
定的任务 , 并且由于最大嫡方法善于将各种不同的知识结合
起来 , 因此最大嫡模型比一般的统计模型能获取到更丰富的
不受限文本特征 , 诸如可以灵活地把一些跨距离的特征加入
到模型中去 , 能达到较好的识别效果 , 比较适合于信息抽取中
分类问题的解决 。 但最大嫡模型的一个明显缺点是计算量巨
大 , 同时它也可能出现数据稀疏问题 , 需要进行平滑处理
隐马尔可夫模型方法
隐马尔可夫模型可以看成是有穷状态自动机 , 它通过定
义观察序列和标号序列的联合概率对生成过程进行建模 每
一个观察序列可以看成是由一个状态转移序列生成 , 状态转
移过程是从某一初始状态开始 , 当到达某一预先指定的结束
状态为止 , 在每一个状态将随机产生一个观察序列的一个元
素 用 来解决信息提取的一般途径是 每个域 待提取
的每个语义项称之为域 对应一个或多个状态 , 原始文本中的
符号作为状态的输出符号 , 如果模型给定 , 那么信息提取过程
就是搜索最可能创建符号序列的状态序列川
, ‘幻 这个向题可
以由 算法通过动态规划解决伽〕
,
尽管 被广泛使用 , 但它和其它产生性模型一样并
不是用于标注序列化数据的最佳模型 产生性模型定义了标
号序列和观察序列的联合概率 , 定义这样一个联合概率意味
着所有可能的观察序列都应该被枚举出来 , 然而如果观察元
素间具有长距离依赖性 , 这个任务将是很困难的 。 因此 , 对于
产生性模型而言 , 为了保证推导的正确性 , 应该作出严格的独
立性假设 事实上 , 大多数序列数据都不能被表示成一系列独
立的元素 , 往往在观察元素之间存在长距离依赖性 , 这样的数
据更适宜于被允许这种依赖性的模型所表示 , 从而使观察序
列被表示成一系列的非独立的 、重叠的特征
最大嫡隐马尔可夫模型方法
最大嫡马尔可夫模型是对 的一种改进脚 , 它试
图克服 的上述缺点 。 在 中 , 传统 的
转换函数和观察函数被单个函数 尸 , , , 。 所替代 , 这个函数
给出了在给定以前的状态 和当前的观察 。 的条件下转移到
当前状态 的概率 。 从 练数据中学习 , , , ,
它是通过使用最大嫡方法来使得该模型最大可能地与训练数
据中的特征约束保持一致 , 这使得 尸 , , ‘ , 具有如下的指数
形式
尸 , , 。 一 万行共二 习凡几 。
,
,
、口 , 产 。
月叹
其中 , 凡 是需要被学习的参数 , , ,‘ 是一个归一化因子 每
一个 几 是一个布尔特征值 , 它依赖于状态 , 和输入观察序列
车 的任何特征 , 如“ 。 以一个数字开始 ” 、“ 口 以一个问号结束 ” 。
由于最大嫡马尔可夫模型结合了隐马尔可夫模型和最大
嫡模型的优点 , 它允许状态转移可以基于输入序列中非独立
性特征 因而使用 模型处理 自然语言的信息抽取任
务时 , 性能明显优于 和无状态的最大摘模型 〕但是
模型和其它判别性有限状态模型一样 , 在特定情形
下都存在一个共同的问题一标注偏置问题
离开一个给定状态的转移仅仅彼此竞争 , 而不会与模型
中的其它转移竞争 , 按概率术语 , 转移值是在给定当前状态和
观察序列条件下的条件概率 。每个状态的转移概率值的归一
化意味着一种“转移概率值总量的守恒 ” , 由此 , 到达一个状态
的总量应该在所有可能的后继状态之间分配一个观察值可
能影响哪一个 目标状态获取转移概率总金 , 但并不会影响传
递多少总量 , 这就会引起一个向着带有更少分支转移的状态
的偏置 。
系件随机场方法 一
针对 的标注偏置问题 , 等人提出了一
个条件随机场 的概率模型来克服标注偏置问题 〕
条件随机场是一种用于在给定了指定的输入结点值时计算指
定的输出结点值的概率的无向图模型 。 若 是一个“ 输入 ”随
· ·
机变 的集合 , 且它们的值可以被观察 , 是一个“ 输出 ”随机
变 的集合 , 它们的值是要求模型能够预测的 这些随机变
之间通过指示依赖关系的无向边所连接 , 让 , 表示这
个图中的团 的集合 , 根据 一 定
理 , 。将在给定一系列输入随机变量值的情况下 , 一系列
翰出随机变 值的条件概率定义为与无向图中各个团的势函
数 的乘积成正比
,
, 、
厂 气 育
乙
叭 , 以
心 刀一
其中 , 电 , 认 表示是团 的势函数 , 一般定义为团的所有
特征的带权和的指数形式 , 叭 。 , 一 习二、几 儿
,
’ , 是一个归一化因子
月
图 链状 的图形结构 非阴影节点表示的观察值
并不是由模型产生
在图形模型中的各指定翰出结点被边连接成一条线性链
的特殊情形下 如图 , 。 假设在各个输出结点之间存在
一阶马尔可夫独立性 , 这种 可以被理解为条件训练的
有限状态机 。 由于这种类型的 是对
的一种全局归一化扩展 , 因此 , 它较好地解决了 。 中
存在的标注偏 问题 。
若让 。 , 。 , ⋯ , 沂 表示被观察的物入数据序列 , 如
文本文档中的词序列 。 表示一个 的状态集合 , 每一个
状态均与一个标号相关 , 让 , 二 , , , ⋯ , 打 表示一个状态序
列 。图中的各个团现在被限制为仅包含序列中相邻的状态对
认一 , , 但在物入结点之间 。 的连接并不受限制 。这样 , 在一
个输入序列给定的情况下 , 线性链的 定义状态序列的
条件概率为
盆
一组关键的训练样本来确定 。在核方法中样本保留了它们的
原始表示形式 , 在算法中仅仅通过计算一对样本对象间的核
函数的方式使用样本对象一个核函数是一个满足一定特性
的相似函数 , 更准确地说 , 一个在对象空间 上的核函数
是一个二元函数 , 〔。, 〕, 它映射一对对象 , 任
到它们的相似值 , 刃 , 一个核函数要求必须是对称的
和半正 定的 而 址 任何核函数均在高维的
特征空间中隐式地计算对象的特征向 的点积 , 也就是说 , 若
存在特征 · · , 几 , ⋯ , 五 , ‘ , 则 ’ ,
, 刃 在许多情况下 , 不用枚举出所有的特征也可以
计算出某些特征的点积 在 自然语言处理中典型的例子有关
于子序列核伽 〕和解析树核 的例子 如在子序列核的例子
中 , 对象是宇符申 , 核函数计算在两个宇符申中存在的公共宇
符子序列的个数 尽管特征的数 是指数级的 , 但子序列核的
计算仍可以在多项式时间内完成 因此在核方法中可以充分
利用宇符申中的长距离特征 , 而不裕要明确地枚举出这些特
征 。 提出了一个基于核方法的机器学习方法用于信
息抽取中的关系抽取 , 他首先在文本的浅层解析表示的墓
础上定义了核 , 并
了一个用于计算核的高效的动态规划
算法 然后分别应用支持向 机 和表决感知器
算法实现信息抽取 , 实验显示这种核方法导致了
非常好的性能
从机器学习系统设计的观点看 , 核方法是将焦点从特征
选择问题转移到核的构造问题 , 由于在一个核学习系统中核
是唯一与领域相关的构件 , 因此设计一个能充分封装用于预
测的各种信息的核是非常关健的 。另一方面 , 由于在核计算中
长距离依赖性的使用 , 使得基于核的算法比墓于特征的算法
能够搜索更大的空间 但使用核方法还豁要进行数值优化 , 当
前用于支持向 机 的各种估计方法不能具有较好的
伸缩性 , 因此 , 恰当的训练对于某些应用而言可能还不可行 。
自均
。 , 。 、 , 甲 甲
,
, ,
厂孟 、 , 芍尸 气‘曰 ‘ 心 叭儿一 , ’ , , 少少
‘ , 汤
其中 , 人 一 , ‘ , 。 , 是一个任意的特征函数 , 凡 从一 到
变化 是一个据要被学习的对应每个特征函数的权值 。一般
而言 , 特征函数可以对输入序列提出任意的问题 , 包括询问前
面的词 、后面的词以及它们的联合 。
模型与 昌 模型的主要区别在于 在一个最
大摘马尔可夫模型中 , 对每个状态均定义一个指数模型作为
在给定当前状态时下一状态的条件概率 而一个条件随机场
模型仅使用一个指数模型作为在给定观察值序列的条件下整
个标号序列的联合概率 , 因此 , 在条件随机场模型中不同状态
的不同特征的权值可以彼此平衡 汤 等人将条件随
机场模型应用于命名实体识别 、文本浅层分析等信息抽取任
务的实验〔‘川 , 实验结果显示该模型具有良好的性能
核 晚 , 的方法
前面的几种机器学习方法均是从训练数据中抽象和构造
出一个模型 , 它的各个参数都裕要从训练数据中估计 , 因此可
以说这些不同的实例化模型其实是对训练数据的一个总结
另外 , 前面各种学习方法均依赖于对象的特征表示 , 一个对象
通常被转换成一系列特征 , ⋯ , 方 , 而在许多情况下 , 数据
并不便于通过特征来表达 。
核方法则是一种完全不同的方法 , 它的模型可以通过
多种机器学习方法的集成
在过去的十年中有一个重要发现 , 即如果将多种不同的
学习模型组合成一个集成系统 , 则系统的性能经常会得到明
显改善 〕, 当前对各种集成技术 如 , 吨 和
运 兽事的研究非常热门 , ,
,
, , 〕它们的墓本思想是所有的学
习模型都在某些方面有所偏 , 而通过对多个不同的模型的
平均 , 可以有效地消除这些偏 。
在自然语言处理领域 , 集成方法已经应用到词性标注 、语
法解析 、文本分类和信息抽取等多个领域 利用多‘
分类器组合的方法设计了一个命名实体识别系统山 , 在该集
成系统中包含了一个隐马尔可夫模型的分类器 、一个最大摘
分类器和一个荃于规则的分类器 基于转换的学习分类器 等
四个分类器 。各个模型均通过对文本中的每个词斌予一个该
词在一个命名实体中的位 标注来确定命名实体 , 多个模型
可以通过对当前正在处理的分类间题以投票的方式进行组
合 , 另外也可以对每一个组成模型按照其对侧试集的性能斌
以一定的权值一般 , 若给定 , 个分类器 , 各分类器的组合框
架可以被定义为如下形式的组合概率分布
尸 了。 , 口 二 只 。 , 口 ‘ 卜 。
其中 , 表示第 ‘个分类器的分类物出 , 是一个组合函数 。
当前广泛使用的组合
是对各分类器的类别概率分布进行
线性擂值
川
翻
一 , 口 一 习尸 一 , ‘, ‘一。
习只 一二
, 。 、
权值 入 切 表征了对于词 的上下文 , 第 个分类器在
组合中的重要程度 , 尸 , , 是在给定第 个分类器对词
的输出是 的情况下 , 正确分类结果是 的概率的估计 。
采用了五种不同的方法对各插值参数进行估计即 〕, 实
验结果表明 几乎在各种情况下 , 集成方法都产生了最好的查
准率和查全率 但代价是集成方法极大地增加了由于参数估
计所带来的计算负担 另外 , 集成模型将系统的复杂性提高到
极点 , 使其很难被解释 现有研究成果也表明 , 当多学习模型
集成中的个体学习模型差异较大时 , 集成的效果会较好 。
弱指导学习
统计学习方法在信息抽取中比基于规则的学习方法具有
优越性 , 但当前各种统计学习方法均面临一个困境 , 即需要大
的标注语料的支持 , 而创建新的标注语料库资源是十分高
代价的 因而 , 近年来有许多研究聚焦于如何从现存的小规模
协 已标注语料通过 自扩展 方法生成大规模的标
注语料库 。 提出了一种将相对少量的手工标注语料与大
的未标注语料组合的方法山 , 称之为互助训练 一
。 。一 方法可以非形式化地描述为 首先为一个
分类问题选择两个或更多的视图 , 然后为每一个视
图建立一个独立的模型 , 并基于少量的标注数据训练每一个
模型 接下来从未标注数据集中选择被每一个模型独立地以
高可信度标注的数据样本 , 并将这些样本看成是有用的训练
样本 , 不断地迭代这个过程直至整个未标注数据集为空时结
口咬 束 在 一 方法中 , 各个模型所学到的特征是相互独
立的 , 同时各个模型在学习过程中相互帮助 , 把各自学到的东
西交给对方 , 使各自的学习成果进一步提高
。 将 。
‘ 方法应用于命名实体的识别 〕, 他提 出荃于 。
思想的 算法来解决命名实体的识别问题 ,
称之为 。一 , 将标注样本的特征空间分成构造特征
和上下文特征 尽管类似于 一
运 的学习方法在一定程度上提高了定义在不同特征空间的
弱分类器的分类准确性 但是它还是存在着一些缺陷 , 如要求
必须满足特征空间的冗余性伽 〕等
另一种广泛使用的弱指导学习方法是主动学习
咬 垃 卿〕
·主动学习的核心思路就是在机器学习中考虑到
不同样本对最后分类器的作用其实是不一样的 , 我们称这种
作用为样本的信息 , 样本含有的信息量越大 , 对分类结果的
, 确定越重要 。主动学习算法主动在未标注样本集中选择测试
例子 , 并将这些实例以一定的方式加入到训练集中 主动学习
明显不同于 一 川 的是 当对某个例子两个 或更多视
图 都预测产生不同的标注时 , 则将那个例子提交给人进行标
注 提出了一种基于两个视图的有效的主动学习方
法 , 称之为 一 方法 , ‘〕在该方法中 , 分别对应于
两个视图的两个分类器首先在可利用的标注数据上分别进行
训练 , 然后 , 将它们运行于未标注数据 , 这样就产生了一个实
户 例的不确定集合 , 位于这个集合中的实例将
被随机地抽取以提交给人进行标注 在两个分类器将保持不
变的情况下 , 这个过程将不断重复 在一个用于抽取各
,
语义类的名词短语的信息抽取系统中对 一 方
法进行了改进 , 〕, 他结合 过 的思想 , 使用标注数据
和未标注数据来共同建立分类器 另外 , 还尝试使用不
同的策略从不确定集合选择最好的实例 。
结束语 当前 , 机器学 习方法在信息抽取领域的应用研
究受到了广泛的关注 , 特别是对各种基于统计的机器学习方
法的研究更是研究热点 统计学习方法在信息抽取中具有优
越性 , 一些实验数据表明 , 基于各种统计学习方法的系统的查
准率和查全率一般都达到或超过了荃于规则的系统所能达到
的水平 但统计学习方法也存在不足 , 本文认为它存在下列发
展趋势
首先它的模型 、算法还需要不断改善 统计学习归根到底
是一个优化问题 , 只能在人预先规定的范围内选择一个最优
解 , 或近似最优解 , 如何将人工规则加人到统计模型 中 , 特别
是如何将各种语义约束规则加入到模型中是需要进一步研究
的内容
再者 , 当前统计学习方法主要是有指导的学习方法 , 因而
都面临着标注语料的医乏问题 而语料库的人工标注是一件
很费时费力的工作 , 尤其是针对汉语语料库的标注工作 , 迄今
为止可利用的汉语语料库资源又很有限 , 大规模语料的获取
与加工成为统计学习技术面临的最大困境 。 主动学习方法是
目前用于减小语料标注代价的一种有效方法 , 但 目前的各种
主动学习方法均是墓于单个学习模型的 , 如果将这种基于单
个模型的主动学习方法扩展为基于集成 的主动学
习 , 一定会进一步减少语料标注的代价
此外 , 虽然当前各种实验数据均表明使用多学习器集成
的方法能够比使用单个学习器的系统具有更好的性能 , 并且
近年来提出了针对各种广泛使用的集成方法的有效性的理论
解释 , 但目前依然还缺乏一个支持各种集成方法的统一理论
框架 , 如果能为多学习器的集成建立一个统一的理论框架 , 不
仅可以为集成技术的理论研究提供方便 , 还将有利于促进其
应用层面的发展
参 考 文 献
公 〔 ,
, 〕
卜
, ,
, , , 一 名 随
一 一 ,
, , , , ,
川
一
, 一 ,
叮 扭
, 〔 〕 ,
·
玩
· ,
沁 ,
,
· 、 一湘
,
, 元一
, , 一 ‘
, 伽 , 丫
一 而 杭
‘
· · ·
,
· ·
卜
·
班 ,
下粉第 万
· ·
,
名 称位里 为空
,
表示没 有采用该 本体 中的技 术
,
其 数据特 点是 间共 享信 息提供 平台
,
使他们 的工作 彼此 不再独 立
。
当前 节 点的数 据特征 当处 理完 生成树 同一 层次 中最后 一个 本文 中
,
我们 在概 念上探 讨将本 体引 入数据 挖掘方 法中
,
叶节 点时
,
表明在 该阶段 的所有 可能 的技术 组合都 已经考 虑
,
并对 数据 挖掘方 法本 体和 其相关 算法 进行 了初步 设计
,
目的
可 以进行 下一阶 段操作 既考虑 子类 集合中 的下一 个子类
,
直 在于 帮助 数据 挖掘工 作者 在工作 过程 中
,
面 对如 何选择 数据
至将 集合 中的所 有子 类都遍 历之 后
,
我 们也 将生成 相应 的生 挖掘 技术 时不再 困惑目前
,
我们 已经 在动 手建立 部分 本体
,
成树 了 以实 现本 文中所 提出 的算 法
,
同 时在着 手设 计对 得到的 方案
·
翁簇撇 纂霜的有序针
’
二
” ’
。 计划 华里暴蓖着馨翼禁氰地 共享 知识发 现成 果
,
实
愧监 上蕊忌 招井得到二 的叶子节点集合 现所 谓的 网络外 延性
,
我们 将基 于课题 项 目设计一 个原 型系
忱 坏
必
数据特征
·
前提 排斥 名称 袅 奎 肯 翻, ·
名称
,
仓
·
效果
,
必
·
排斥 萝
一 ,
入 徽
‘生成禁熟寰黯泉 烈堵终爵禁籍款滩技 吵怜衅之交 的知解程与秒科学 。木学当版社
,
周肖彬
,
曹存根
·
基于本体的 医学知识获取
·
计算机 科学
, ,
砰嘿 , , 竺攀据持征丈 挑斥卜 ⋯
‘
⋯
隽成丁个 役育名杯的新节点
,
表示役有 米用。 中的任何技术
· ,
拍
,
, 」 , · , , , , 二
⋯
。 , 。 , , , , 。 、 ,’
兮罗
,, 〔, ’
几
‘ 乙 , ,
八
‘ ’ 上, , 。 ’ 二 二 、 ‘ , ”
,
一了
‘ 我 们对 二进 行。历 生成 所有最 长路 径
,
一 条最长 路径 上 ‘ 盆二真艺翼纂尝器 沈二鉴篆黑 糕 菜 兔黑井
的所有 节点
,
即为一 个可执 行计 划方案 中所有 细节
。
总 结 数据 挖掘是 一个 由多 个阶 段组 成的 知识 发现 过 ”溉少产士竺兜 “ 即
“
高‘ ‘ 。 ‘ ‘
二
、 “ 月 子 受 义
育
口 〕 声
联
个 二 ,‘ 孟
程
,
在每 个阶段 那有 很多的 相关技 术
·
随 着数据 挖掘技 术在 商 氏
, ,
托 一
业 领域 中的 日益普 及
,
越 来越 多的新 技术 被提 出来
,
此时
, ‘
尹
·
不 论是 数据 挖掘领 域的 专家还 是新 手
,
都 可能会 忽略 有用 的 淤粼瓷念纂呼念二万 豁欺呈默片矍黑 穿掇谈技 术 为此 ,我 们提 出为数 据挖 掘方 法建立 本体, 来解 决上述 一 一 。
黯募装轰黑黔霎黔黑惹撬瞿置 蒸暑巍燃戴撇燕囊蒸鞘愚
口阵
一
上接第 页
贬
一 ‘
⋯攀⋯轰, , · · ·
帅乒吐 ‘全少尸记 ‘ ’ ,‘ “
, · , ,
州 瞥户 吸 臀
,
鸭
,
‘尹,
一 七 八 ‘ 人 、
几
一
甘 爪
· 广、 ‘
“ 岭 卿 吧
,
今
,
“, 飞 ‘
·
乒 ‘沙 犷于‘竺‘ 吵佗今
,
‘
,
乓弊 护少 黔 柱‘尹‘映 〕
·
玩
,
”
, ,
搜哄 只 “
。
卿 ‘
·
‘‘
,
‘
“
,
心
压 盆
长
压 厂 止 吕 , 犷 压 遥 一 七 ,
八
,二 竹 们 、
七
、 且少
与
一 ‘
幼 石 介
, ,
, 一 ‘ ·
几
·
, · ,
主 谊
· · ,
垃
, ·
· ,
, , , , 协 , 一 , , ·
吕
公 】 卜
面
, ,
垃
, ,
, , 一 , ,