数据挖掘在医学领域的应用研究
Mi ni n g i n M e dic al S ci e n c e 1 2ZHANG Te - la i, L IU Wan - jun (1. Dept . of electronics and information , Liaoning Technical University , Fuxin 123000 ,China ; )2. Software College , Liaoning Technical University , Huludao 121500 ,China
Abstract : The paper introduces a new decision support technology of 90’s - data mining. The application of data mining in medical science is dis2
cussed. It’s application prospect to medical science is also outlined. Key words :Data mining ; Medical science ; Prediction
自 20 世纪 80 年代开始 ,数据挖掘技术逐步发展起来 。数 1 引言 () 据挖掘 Data Mining是指从大量的 、不完全的 、有噪声的 、模 糊 2003 年 4 月爆发的 SARS 让全球的普通百姓和医务工作者
2() ()数据挖掘和解释评价三个阶段 。 年龄调整发病率 1Π10 万 1969 - 1973
( )76. 1 阿拉美达 白人
( ) 夏威夷 夏威夷人66. 2 2 数据准 备 阶 段 可 以 完 成 对 数 据 的 ( ) 撒喀其万 加拿大62. 8 以色列 筛 60. 8 选 、变换和预处理 ( ) 萨尔区 德国爱原始数据的准确性是做好数据挖掘的基础 。例如 ,漏报率 50. 6 ( ) 沙尔 苏格兰挪高的婴儿死亡数值 ,不仅得不到准确的婴儿死亡率 ,也得不到准 50. 1 威 确的总死亡率和期望寿命 。医学数据资料主要来源有三方面 . 丹麦 49. 6 ( ) 新墨西哥 美国萨49. 1 ?统计报表 ,如出生死亡报告 、疫情报告 、医院工作报表等. ?医 ( ) 拉哥撒 西班牙古32. 4 () 疗卫生工作记录 ,如 电子病历 、医学检查记录等 . ?专
实验 巴 30. 6 ( )或调查记录 、专题性的资料 ,这类资料比上述 2 个经常性资料较 波多黎各 海地 28. 0 3 孟买 克容易控制 ,可以得到较好的数据 。 25. 4 拉科 此阶段并不是简单地将数据堆砌到一起 ,而是要清除数据 20. 1 ( )布拉瓦约 南非黑人 噪声和与挖掘主题明显无关的数据 ,从而将数据转换为易于进 大阪 19. 6 行数据挖掘的数据存储形式 。 13. 8
12. 1
3 数据挖 掘 阶 段 可 以 根 据 任 务 的 自
4 解释评 价 阶 段 可 以 对 发 现 的 身 特点建立模型 , 选取有效算法对数据进 模 行解释评价 行挖掘由于行业之间的业务差别较大 ,如何将挖掘出的有 要将医学与数据挖掘技术很好的结合在一起 ,就要事先充
清楚易懂地提供给医务工作者也是一项非常重要的工 分明确挖掘的目的性 ,从而采用适合的数据挖掘
。例如 ,下
表 1 是世界若干国家与地区女性乳腺癌的发病率统计 。 合适的可视化工具 ,将结果以关系表或用量化特征
上例的疾病发生带有很强的地域色彩 ,数据挖掘技术中的 用户 。
聚类
可以找出乳腺癌的发病基理 。聚类是一个将数据集划 对于数据挖掘技术在卫生保健业和生物医学研究 分为若干组或类的过程 ,并使得同一个组内的数据对象具有很 刚刚起步 ,虽然会有不成熟的尝试 ,但综观整个医学行 高的相似度 ,而不同组中的数据对象则是不相似的 。从上表可
发展空间还是非常巨大的 ,相信随着数据挖掘技术的逐 知乳腺癌在北美 、北欧最多 ,东欧其次 ,亚洲和非洲各 国 少 见 。
它在此领域将会有更广阔的应用前景 。 通过聚类分析得知如此分布原因是许多原因造成的 ,环境因素
中的膳食组成不可忽视 ,即每人每年平均摄入脂肪量多的国家
患此病人数多 ,反之则少 ,根据此结果可针对相应国家人群采取
5 参考文献 : 有针对性的预防监测策略 ,进行人为干预以降低发病率 。
1 MEHMED KANTARDZIC. 数 据 挖 掘 —概 念 、模 型 、方 同时 ,关联分析 、分类与预测也是数据挖掘在医学中应用的 M. 北京 :清华大学出版社 ,2003
2 耿贯一. 流行病学M. 天津 :人民卫生出版社 ,1999
3 王翔朴. 卫生学M. 天津 :人民卫生出版社 ,1999
作者简介 : 张特来 (1980 - ) ,女 ,辽宁工程技术大学电子与信息工程 常用手段 。