为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

基于信息增益的文本特征选择方法

2017-09-25 10页 doc 26KB 14阅读

用户头像

is_601191

暂无简介

举报
基于信息增益的文本特征选择方法基于信息增益的文本特征选择方法 计算机科学 . 第刍.誊。.篓期 。 蕊 』年月 。???????????????????????????????????????????一 基于信息增益的文本特征选择方法 任永功杨荣杰尹明飞马名威 辽宁师范大学计算机与信息技术学院 大连 摘要在类和特征分布不均时,传统信息增益算法的分类性能急剧下降。针对此不足,提出一种基于信息增益的文 本特征选择方法。首先对数据集按类进行特征选择,以减少数据集不平衡性时特征选取的影响。其次运用 特征出现概率计算信息增益权值,以降低低频词...
基于信息增益的文本特征选择方法
基于信息增益的文本特征选择 计算机科学 . 第刍.誊。.篓期 。 蕊 』年月 。???????????????????????????????????????????一 基于信息增益的文本特征选择方法 任永功杨荣杰尹明飞马名威 辽宁师范大学计算机与信息技术学院 大连 摘要在类和特征分布不均时,传统信息增益算法的分类性能急剧下降。针对此不足,提出一种基于信息增益的文 本特征选择方法。首先对数据集按类进行特征选择,以减少数据集不平衡性时特征选取的影响。其次运用 特征出现概率计算信息增益权值,以降低低频词对特征选择的干扰。最后使用离散度分析特征在每类中的信息增益 值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集。 通过对比实验表明,选取的特征具有更好的分类性能。 关键词特征选择,文本分类,信息增益值,冗余特征,不平衡数据集 中图法分类号. 文献标识码 , , , , , . . , ,., . ,. , , . . , , , , 下移走高达%的“无用”单词,但是此算法考虑到全局变 引言 量,在处理不均衡数据时性能急剧下降,并缺少对选取特征的 随着的迅猛发展,网络信息迅速增加,文本分类成 进一步筛选。因此为提高 算法的性能,本文不仅考虑不平 为处理和组织大量文档数据的关键技术,但其高维特征空间 衡数据集以及低频词对特征选择的影响,还去除高频冗余特 不仅增加了分类的时间复杂度和空间复杂度,还影响分类精 征来降低特征维度,选择区分类别强的特征子集,使分类效率 度。特征选择通过降低特征空间维度以及去除噪音特征来提 和精度得到明显提高。 高分类效率及精度。常见特征选择方法有交互信息? 信息增益简介 ,、信息增益 ,、统计 量,、特征权 ,、期望交叉 .信息增益 熵,、文本证据权 定义信息增益, ,是某一特征在 ,、几率比 ,等。这些方法从不同的 文本中出现前后的信息熵之差。信息增益考虑特征出现与不 角度度量特征对分类的重要性。 出现时,特征对文本类别的信息表示量。以信息量的多少作 特征选择是一种有效的特征选择方法,如文献提 为特征的权值,进而筛选特征。 ? 出是最好的测度之一;文献比较了 一??/ ,文档频率、、、及 种特征选择方法,其 /奶?/,/聊 中以效果最好,、和之间存在很大的相关性; 定义中,表示类别总数,表示特征在文本中 文献比较了、、 种特征选择算法,表明 出现的概率,表示类文本在文本集中出现的概率, 能提取更优的特征子集。在不降低文本分类性能的前提 到稿日期;?卜 返修日期:?? 本文受国家自然科学基金项目,教育部留学回国人员科研启动基金资助项目,辽 宁省科技项目,辽宁省教育厅高等学校科研基金,大连市优秀青年科技人才基金资助。 任永功一,男,博士,教授,主要研究方向为数据挖掘、图像处理技术等,:.;杨荣杰一,女,硕士生,主要研究方向 为数据挖掘;尹明飞一,女,硕士生,主要研究方向为数据挖掘;马名威一,男,硕士生,主要研究方向为数据挖掘与并行计算。? 万方数据表示文本包含特征时属于,类的条件概率, 由定义得:的值为.,毗的值为.,珊的值 勋表示文本中不包含特征的文本的概率,/表示 为.。从结果可知数据集平衡程度严重影响了特征的提 文本不包含特征时属于,类的条件概率。 取,相对于劬具有更强的类区分性,但根据权重值筛选 根据 教授对英文文本分类中特征选择算 特征,?更容易被过滤掉。 法的深入研究,可得特征选择。 定义信息增益选择 分别计算每类中特征 的信息增益值,以避免数据集不平衡时信息增益选取特征覆 一?/?孑芦/弋一雨 盖不全的缺点。 /?石万/于 /。架丽/ 在信息增益中,分类系统负载信息量的大小是衡量特征 重要性的。负载量越大,特征越重要。因此选择值大 ?两万/奶 的特征构成分类特征子集来提高系统的分类效率。 定义中表示特征在,类中出现的概率, .信息增益的不足 奶表示特征在,类中不出现的概率。由定义得,在 虽然算法是有效的全局特征选择算法,但针对不均衡 类中砒的值为.,劬的值为.。在类中毗 数据集,算法对小样本集抽取概率降低,减少了小样本集 的值为,的值为.。因为分类选取贡献率大的特征, 的特征提取概率。它考虑特征出现与不出现两种情况,对于 所以中的劬、中的都将被提取,以减少不平衡数据 小数据集,不出现的特征权值将产生主导作用,因此很难提取 集对选择特征的影响。本文从每类中提取权重大的前个 小样本集特征。其次算法倾向于提取高频特征,忽略了提 特征组成分类特征子集,使其覆盖所有类别。 取特征间的相关性,缺少对特征子集的进一步筛选。 .减少低频特征的影响 鉴于现实生活中不均衡数据集的普遍存在,为广泛应用 虽然降低了数据集不均衡对特征选择带来的影响,但是 算法,需进一步优化算法。针对算法只适用于全局 信息增益算法本身还存在不足。 变量的缺陷,文献?分别采用不同方法对等特征选择 信息增益特征选择公式考虑了特征出现和不出现两种情 算法进行改进,提出适用于不平衡数据集的新算法。但是文 况,因而在去除“无用词”时,效果显著。但特征不出现时.对 献中当类的重叠度较小且存在类不平衡时,此算法精度会 文本分类的贡献远小于对分类的干扰,特别在类和特征分布 下降,且适用范围小,没有普遍性;文献通过、、 高度不均的情况下,低频词不出现的概率远大于出现的概率, 以及 种特征选择的组合,得到适应不平衡数据集的特 即雨》。此时信息增益值是由公式后半部分决定 征选择方法,但是它的限制条件很多,适应性差;文献用 的,其大大降低了提取特征的效果。 替换来降低不平衡数据集中低频词对选取特征性能的 假设有,,, 类,含有个样本,而后类 影响。文献虽然降低了数据集不平衡时低频词对选取特 都只含有个样本。有两个特征项:,。表示特征出 征的影响,但是没从根本上降低不平衡数据集的影响。文献 现,表示特征不出现,如表所列。 利用词频信息提高、及的性能,但对提取特征仍 需进一步处理进行降维,以提高分类的性能。 表特征文档分布情况 基于传统算法以及文献算法的不足,本文从三 特征项丁??了争蔫 方面对算法进行改进,提出一种改进的信息增益特征选择 方法。一方面对数据集进行分类特征选择,减少不平衡数据集对特征选取的 影响。另一方面使用特征出现概率计算信息 由定义可得:的值为.,毗的值为.。根据 增益权值,以降低低频词对特征选择的干扰。最后利用离散 中特征权值,比砒具有更佳的分类效果。但由表可 度分析在每类中特征的信息增益值,对提取特征做进一步细 知,对的区分性能更好。因此公式应筛选出本类中 化,过滤掉高频词中的冗余特征,获取均匀精确的特征子集。 出现次数多而在其它类中不出现的特征。 基于信息增益的改进算法 定义改进信息增益特征选择函数。考虑特 征出现时,特征对文本类别的信息表示量。以信息量的多少 . 改善不均衡数据集的影响 作为特征的权值,进丽筛选特征。 信息增益只考察特征对整个系统的贡献,而不能具体到 某个类,因此它只适用于做“全局”的特征选择,而无法做“本 ?/。%斧?/ 地”的特征选择。例如有,,, 类,前类都含有 个样本,含有个样本。有个特征项:撕,,勘。表 、, 示特征出现,表示特征不出现,如表所列。 由定义得,的值为一.,砒的值为.时,能 表特征文档分布情况 对特征进行更好的筛选。不仅选取出对本类信息量贡献大的 特征,而且在特征与类分布高度不均的情况下,减少了低频特 茕征项 征对特征权重的影响。函数比传统提取特征的性能得到一定的提高,减 少了低频词的影响,但还需要对提取的特征进行冗余处理,选 万方数据择更优的特征子集来进一步提高分类性能。 /聊、 丽? .去除高频特征的冗余 ?在每类中选取权值最大的前个特征。 在分类选取特征过程中,由于分别计算每个类中特征的 循环结束。 值,使得特征集合中出现重复特征,因此需先删除重复特 将选取的所有特征删除重复特征后,放人特征子集 征,然后对特征集合迸行冗余处理。 龇。 信息增益值的波动大小可以衡量特征对于分类存在冗余 从到循环 的程度。信息增益权值波动越大,表明特征在每个类中的文 ?根据定义,对选取特征暇,,,?,.算离敖 本表示值差异越大,剜特征值对应到每个类的中心值距离就 度: 越远,对文本分类就越精确。反之,则很难对文本进行分类。 例如训练集中的特征“促进”在教育、政治、哲学和历史个类 ??;一面 当三旦??????一 中的值分别为.、.、。、.。通过观察信 息增益值发现,以平均值.为中心,每个类的信息增益值 ?将舢特征子集中值.的特征存人&缸特 的波动很小。特征在个类中的向量值集中在以平均值为中 征子集。 心的区域内,特征“促进”很难对测试集中的样本进行类别区 循环结束。 分。因此高频特征“促进”属于冗余特征,需从特征子集中删 根据定义,计算特征子集中特征的值: 除。 ?~碱 定义基于的信息增益特征选择函数 将划特征子集中值.的特征存人特 使用离散度来计算特征在每类中值的波动大小。 征子集。 离散度是衡量一组数据波动大小的重要量,通过数据方差计 输出酬特征子集。 算。 为降低不均衡数据集对特征选择的影响,分类计算特征 权重,并通过和对特征进行筛选,设置的 ??碘,一面。 阈值为.,的阈值为.。不同的训练数据计算出 声一三』兰???一 的权重值不同,则设置的阈值也不同。阈值太小,对特征筛选 定义中珂表示选取的特征总数,毗表示第个特征在 没有意义;阈值太大将过分筛选,删除对文本分类重要的特 第类的取值,面表示第个特征在所有类中值的 征。本文经过多次对比实验,选择使实验结果最佳的阈值对 平均值,表示文本类别数。 特征进行筛选。最后使用选取的特征进行分类实验,以验证 特征选择最终筛选的是本类中出现概率大且其它类中不 本文改进的特征选择算法的有效性。 出现的特征。但特征离散度衡量的是特征在所有类中的整体 波动性,并不能精确表示具体类与类之间的信息增益值变化。 实验结果及分析 定义基于的信息增益特征选择函数 .性能评测 利用特征在类间的最大信息增益值与第二信息增益 文本表示采用变形的公式,如式所示: 值的差值对选取的特征做进一步筛选,从而选择更精 确的分类特征子集。 训,:????丝血型?~, 一声虹 。 ..糍 八,唱 定义中表示第个特征的的差值,四 表示第个特征在类中的最大信息增益值,髓 。嗜鼎 表示第个特征在类中的第二大信息增益值。 式中,,表示文档中特征训的词频,动表示文档 。值越大,表明特征越集中出现在~类中,特征对 中的词数, 表示平均每个文档中的词数,表示集 此类的区分度越强,对该类的贡献率就越大,因此增加一 合文档中总的词数,竹?,表示出现过特征,的文档数。 限制函数对特征傲进一步筛选。特征选择函数与 经变形后的文本采用分类器进行分类.分 是对特征冗余的深层分析,能达到去除高频冗余特 类器中文本间距离采用距离进行测量。文本分 征、降低特征维度、提高分类性能的效果。 类的评测指标采用文本分类评测标准中的平均准确率、平均 . 算法描述 召回率和值。各评价参数定义如下: 首先利用算法对训练数据集按类进行特征权值计 平均准确率 算,然后根据选择信息增益值波动大的特征,最后使用 分类的准确率分类正确文本/分类的实际文本数 对特征进行筛选。算法描述如下。 三?只 从到循环: ?初始化每个特征的权重即叫 式中,咒为总的分类数,为第类的准确率。 ?根据定义,对类中所有特征一,,?,训分别 平均召回率 计算权值并更新权值: 分类的召回率一分类正确文本/分类应有的文本数 缸一?芝?, 一/%浮/仍 ,一 ?】? 万方数据
/
本文档为【基于信息增益的文本特征选择方法】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索