为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

临床检验信息系统数据论文:面向临床检验信息系统数据挖掘的因子分析

2017-09-28 5页 doc 46KB 11阅读

用户头像

is_594905

暂无简介

举报
临床检验信息系统数据论文:面向临床检验信息系统数据挖掘的因子分析临床检验信息系统数据论文:面向临床检验信息系统数据挖掘的因子分析 临床检验信息系统数据论文:面向临床检验信息系统数据挖 掘的因子分析 摘要:针对临床检验信息系统的数据信息量大,利用率低的问题,选取大量健康女性血液生化指标数据,运用因子分析法从女性的血液生化指标TP、ALB、ALP、GLU、UA、CHOL、TG、Ca和年龄等9个指标中提取了6个互不相关的公共因子,这6个因子可以代表原始指标的85.413%信息。通过正交旋转后,6个因子的实际更意义清晰,依次反映女性的个体营养状况和肝脏合成功能、胆固醇代谢、糖代谢、骨代谢、尿...
临床检验信息系统数据论文:面向临床检验信息系统数据挖掘的因子分析
临床检验信息系统数据:面向临床检验信息系统数据挖掘的因子分析 临床检验信息系统数据论文:面向临床检验信息系统数据挖 掘的因子分析 摘要:针对临床检验信息系统的数据信息量大,利用率低的问题,选取大量健康女性血液生化指标数据,运用因子分析法从女性的血液生化指标TP、ALB、ALP、GLU、UA、CHOL、TG、Ca和年龄等9个指标中提取了6个互不相关的公共因子,这6个因子可以代原始指标的85.413%信息。通过正交旋转后,6个因子的实际更意义清晰,依次反映女性的个体营养状况和肝脏合成功能、胆固醇代谢、糖代谢、骨代谢、尿酸代谢、甘油三脂代谢。分析结果表明:因子分析法定量描述生化指标之间的关系,能够为女性健康水平提供综合评价。 关键词:数据挖掘 因子分析 生化指标 正交旋转 中图分类号:R319 文献标识码:A文章编号:1007-9416(2011)05-0097-03 随着现代信息技术的迅速发展,医院临床检验系统积累了大量的数据,这些宝贵的医学信息资源对于疾病的预防和医学研究是非常有价值的。如何从这些数据中挖掘潜在的知识与规律,数据挖掘的理论和方法为我们提供了有效途径。因子分析是数据挖掘中的一个重要研究领域。因子分析法是研究原始变量的内部关系,通过寻找变量的共同因子来简化和分析变量中存在的复杂关系[1],是一种探索不易观测或不能观测的潜在因素,用有限个隐变量来解释原始变量之间相关 关系的技术。女性由于具有自身生理特殊性,一生经过青春期、孕期、绝经期、老年期,在这个过程中卵巢功能逐渐衰退导致雌激素分泌量下降,临床上表现免疫系统,心血管系统、内分泌系统、神经系统,骨质疏松等症状,而这些症状可以通过血清中的一些生化指标的变化得到体现[2、3]。 本文应用因子分析法对大量临床检验信息系统数据信息的女性生化指标进行数据挖掘,寻找有高度相关关系的变量群,定量分析各属性之间的关系,找出描述系统本质特征因素,为女性预防保健和评价女性健康水平提供参考依据。 1、研究的方法 1.1 因子分析的基本原理 因子分析思想是根据相关性的大小将变量分组,使组内变量间的相关性较高,不同组的变量相关性较低。因子分析的目的是从一些错综复杂的关系问题中找出少数几个主要因子,每个因子代表原始变量间相互依赖的一种作用。这些彼此不相关的因子代替原来较多高度相关的原始随机变量,同时这些主要因子尽可能多的反映原始变量的信息[4]。 1.2 研究数据 本文收集了淮北矿工总医院2010年1-6月期间,19-97岁1159例健康女性的生化数据。采用日历7800和7600-020全自动生化仪。 选取女性生化指标中的总蛋白(total protein,TP),白蛋白(albumin ,ALB),碱性磷酸酶(alkaline phosphatase ,ALP),葡萄糖(glucose ,GLU),尿酸(uria acid ,UA),总胆固醇(cholesterol ,CHOL),甘油三酯(triglycried,TG),钙(calciumand ,Ca)及女性年龄9个指标,采用DPS7.05软件进行处理。 1.3 因子分析过程 (1)因子分析检验;因子分析的前提是要求原变量之间应具有较强的相关关系,否则就不能运用因子分析法。本文检验方法采用Bartlett球度和KMO检验[5]。Bartlett球度检验是假设相关系数矩阵是一个单位阵,如果统计量值比较大,且其相对应的概率值小于用户指定的显著性水平,拒绝原假设,认为适合作因子分析。反之,接受原假设,不适合作因子分析。本例Bartlett球形检验的卡方值为1909.8453 ,p=0.0001<0.01,拒绝原假设,适合做因子分析。KMO是通过比较相关系数和偏相关系数的大小来评估样本量是否充足,其取值范围0-1,其取值越大越好,取值越小(<0.6),说明不适合做因子分析。一般KMO>0.8时效果最好,本例KMO=0.6511,可进行因子分析。 的个非负的特征值,按照累计贡献率的要求,根据公式(3)所选公因子的信息量之和占总体信息量的85%确定主因子数[5],得到的特征值、贡献率和累计贡献率如表1所示。 提取6个公因子描述原变量总方差的85.413%,因而可以认为这6个因子基本反映了原变量的大部分信息。用6个公因子代替原来的9个指标,既消除了指标间的相关性,又减少了变量的维数,因子载 荷矩阵见表2。 表2中可以看出第一因子中与变量TP、ALB、UA 、CHOL、TG、Ca联系较为紧密,第一因子中的一些指标与第二因子的有些为正有些为负,且载荷较大,其余因子也是如此。如果有较多的变量在多个因子上的载荷超过0.2,则不利于因子的解释,需要对因子进行旋转[4]。由于这6个因子实际意义不明显,故对因子进行旋转。 (4)因子正交旋转;因子分析的目的不仅是找出主因子,更重要的是知道每个主因子的意义。本文采用方差最大旋转法,这种旋转法的目的是使因子载荷矩阵的元素尽可能地向两极分化,即少数元素尽可能大,而其它元素尽可能接近零[1]。旋转后的因子载荷矩阵如表3所示。 2、结果分析 表3是经过旋转后的因子载荷矩阵,旋转结果明显将因子载荷向1和0两极方向分化,使每个原始变量在尽可能少的因子之间有密切的关系,这样便于实际意义解释[1]。由表3得出: TP和ALB在因子1上具有较高的相关性,这两个变量所反映的信息量几乎占总体信息量的19.74,(表1),主要反映了女性的肝脏合成功能和个体营养状态。同时还注意到Age和ALP的相关系数为负, 表明随着年龄增加女性的TP和ALB有下降趋势。 Age和CHOL在因子2上具有较高的相关性,这两个变量所反映的信息量几乎占总体信息量的14.3,(表1),主要反映了女性类脂代谢情况,表明女性年龄与总胆固醇之间存在正相关关系,总胆固醇出现增龄上升趋势。 GLU在因子3上有较高的相关性,它所反映的信息量几乎占总体信息量的11.43,(表1),主要反映了女性糖代谢情况;ALP在因子4上有较高的相关性,它所反映的信息量几乎占总体信息量的11.39,(表1),主要反映了女性骨代谢情况;UA在因子5上有较高的相关性,它所反映的信息量几乎占总体信息量的11.37,(表1),主要反映了女性尿酸代谢功能;TG在因子6上有较高的相关性,它所反映的信息量几乎占总体信息量的11. 11,(表1),与因子2同样反映了女性脂肪代谢情况。 3、结论和讨论 研究结果表明,由于6个因素占到总信息量的85.413%,而每组因素中的属性都有较大的相关性。所以用6个因素来描述女性生化代谢指标所表征的功能代谢是合理的。 通过因子分析和旋转,我们对生化指标所反映的女性健康因素认识更加清晰,而且依据对人体功能代谢描述的贡献,对影响因素的主次进行了量化排序,明确知道这些指标依次反映了女性的肝脏合成功能和个体营养状态情况、胆固醇代谢、糖代谢、骨代谢、尿酸代谢、 甘油三酯代谢。这对我们进一步女性健康评价或对疾病危险因素的早期干预提供了依据。并且运用因子分析的结果,我们还可以为灰色预测模型做前期分析。 研究过程中,数据挖掘结果有一定误差,分析原因如下: (1)因子分析依赖于原始变量,反映原始变量的信息,所以原始变量的选择很重要。进行因子分析时应选择具有较强相关性的数据,数据相关性越强,分析效果越好。 (2)样本有限,本文对因子分析的效果考察仅限于医院体检中心的健康人,如果能够扩大考察人群,做出健康检测和保健效果的意义会更大。 综上所述,生化指标的变化是相关联的,它们之间存在潜在的共同支配因子,用因子分析法研究影响女性健康、危险因素评估的主要因素,可以为提高女性生活质量和评价女性保健措施效果提供一定思路和方法。
/
本文档为【临床检验信息系统数据论文:面向临床检验信息系统数据挖掘的因子分析】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索