为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

儿童预防接种信息管理系统与数据挖掘

2017-09-16 50页 doc 186KB 58阅读

用户头像

is_842972

暂无简介

举报
儿童预防接种信息管理系统与数据挖掘儿童预防接种信息管理系统与数据挖掘 目录 摘要„„1 ABSTRACT„„2 第一章前言„„1 1.1课题的背景和意义..„„1 1.2课题的提出及国内外发展现状....„1 1.3本课题所做的工作„2 1,4系统设计采用的开发平台„„3 第二章数据挖掘的基本原理„„4 2.1数据挖掘基本概念„„4 2.2数据挖掘技术„„5 2.2.1人工神经网络„„5 2.2.2决策树„„6 2.2.3遗传算法„„6 2.2.4关联规则挖掘算法„„7 2.3数据挖掘的步骤„„8 2.4数据挖掘的功能„„8 2.5...
儿童预防接种信息管理系统与数据挖掘
儿童预防接种信息管理系统与数据挖掘 目录 摘要„„1 ABSTRACT„„2 第一章前言„„1 1.1课题的背景和意义..„„1 1.2课题的提出及国内外发展现状....„1 1.3本课题所做的工作„2 1,4系统设计采用的开发平台„„3 第二章数据挖掘的基本原理„„4 2.1数据挖掘基本概念„„4 2.2数据挖掘技术„„5 2.2.1人工神经网络„„5 2.2.2决策树„„6 2.2.3遗传算法„„6 2.2.4关联规则挖掘算法„„7 2.3数据挖掘的步骤„„8 2.4数据挖掘的功能„„8 2.5数据挖掘的应用„„9 第三章儿童预防接种信息管理系统的技术基础„„11 3.1数据仓库的基本知识„„11 3.1.1数据仓库的概念与特征„„11 3.1.2数据仓库的系统结构„„12 3.1.3数据仓库的数据装入与更新„„13 3.1.4多维数据仓库的设计„„14 3.2OLAP技术概论„„15 3.2.10以p系统准则„„15 3.2.2以p的特点及结构„„16 3.2.3OLAp的性能„„17 3.2.40以p按数据组织方式的分类„„17 3.2.50以p的多维数据结构„„19 3.2.6以LP的多维数据分析„„19 3.3sQLserve:相关性能研究„„20 3.3.1sQLser概述„„20 3.3.2分析服务器„„20 3.3.3数据透视表„„22 第四章儿童预防接种信息管理系统多维数据模型的建立„„24 4.1儿童预防接种信息管理系统概念模型的建立„„24 4.1.1系统边界的界定„„24 4.1.2数据仓库主题的确定„„25 4.1.3多维概念模型的建立„„26 4.1.4主题域的细化„„28 4.2接种信息多维数据库逻辑模型的建立„„31 4.3儿童预防接种信息管理系统的。Ts设计与实现„„34 4.3.1oTs包与包对象模型„„34 4.3.2利用O丁S实现异构数据转换„„36 第五章儿童预防接种信息管理系统的OLAp设计与实现„„43 5.1儿童预防接种信息管理系统数据源简介„„43 5.2儿童预防接种信息管理系统的OLAp设计„„46 5.2.1儿童预防接种信息管理系统OLAP常规维的设计„„46 5.2.2儿童预防接种信息管理系统OLAP维层次及类的设计„„46 5.2.3儿童预防接种信息管理系统的粒度设计„„49 5.2.4儿童预防接种信息管理系统的分区设计„„50 5.2.5儿童预防接种信息管理系统聚集设计„„50 5.3儿童预防接种信息管理系统的OLAp分析设计与实现„„51 5.3.1儿童预防接种信息管理系统的OLAP分析„„51 5.3.2接种信息分析数学模型的建立„„51 5.3.3用MDX语言实现数据分析.„„57 第六章儿童预防接种信息管理系统的接口设计„„59 6.1儿童预防接种信息管理系统OLAP客户端的体系结构„„,.59 6.2儿童预防接种信息管理系统的数据访问接口„„60 6.3儿童预防接种信息管理系统的接口设计„„62 第七章儿童预防接种信息管理系统的优化与维护„„67 7.1系统性能的优化„„67 7.1.1索引的优化„„67 7.1.2优化„„68 7.1.3儿童预防接种信息管理系统的查询优化„„69 7.1.4儿童预防接种信息管理系统数据立方的优化„„69 7.1.5儿童预防接种信息管理系统中的硬盘优化„„70 7.1.6儿童预防接种信息管理系统中数据载入的最优化„„70 7.2儿童预防接种信息管理系统的维护„„71 7.2.1儿童预防接种信息管理系统维护的调度管理„„71 7.2.2儿童预防接种信息管理系统数据的备份„„72 7.2.3儿童预防接种信息管理系统日志的维护„„72 7.3儿童预防接种信息管理系统的安全性„„73 第八章儿童预防接种信息管理系统评价„„75 第九章结论和展望„„77 9.1结论„„77 9.2展望„„77 9.2.1传染病的预警„„77 9.2.2其它辅助平台介绍与年度„„79 文中涉及的英文缩写词对应的全称及其汉语意思一览表„„84 参考文献„„86 致谢„„88 随着信息化在全球范围内的推进,各色的数据库被开发出来,越 来越多的信息资料开始在数据库内存储。但随之而来的是快速增长的 海量数据被存放在大型和大量数据库中,没有强有力的工具,理解它 们己经远远超出了人的能力。被描述为“数据丰富,但信息贫乏”。 数据挖掘就是在这样的情况下被提出来的,数据挖掘,也可以称为数 据库中的知识发现 (KnowledgeDISCoveryinDatabase,KDD),就 是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知 识的过程。数据挖掘的研究在2000年以后开始得到普遍认识,2003 年左右各种理论方面的成果得以发表。数据挖掘的应用最早出现是在 商业上,随着数据挖掘在商业应用上的成功越来越多的领域开始应用 此项技术。 国内卫生方面己经有利用数据挖掘的例子,但在儿童预防接种信 息方面还未出现此类研究,主要是因为儿童预防接种信息系统刚开始 建设并且在数据挖掘方面没有可用的模型可用。但随着儿童预防接种 信息管理系统在全国范围内开始应用,此类研究已经迫在眉睫。建立 一个有着良好组织结构系统,并能进行高效的有意义的数据挖掘,能 为决策人员提供准确有效分析结果的儿童预防接种多维信息管理系 统是本文的研究目的,同时结合其它数据资料尝试疾病的预警。 本文的创新之处在于将数据仓库,数据挖掘的理论和技术应用到儿童 预防接种信息管理系统中,应用数据挖掘理论分析医学数据。 关键词:多维立方体数据仓库数据挖掘免疫儿童预防接种 ABSTRACT AlongwiththeadvaneementofinformationizationintheglobalseoPe,assorted databasesaredeveloPed, moreandmoreinformationstartstobestoredinthedatabases. Asaresult, thefastgrowingmagnanimousdata15storedinthelarge scaleandmassive databases, butfornothavingthePowerfoltool, tounderstandthemhasalreadyfar exeeededhuman, 5ability.It15describedas“ thedata15rieh, buttheinformation15 defieient,,. Thedatamining15raisedinsuehsituation, datamining, mayalsobecalledthe knowledgediseoveryindatabase(KDD).It15aProcessthatPeoPleeane Xtractuseful informationandknowledgewhich15IatentandPeoPIedoesnotknowina dvancefrom PraetiealaPPlicationdatawhich15massive,ineomPlete, hasthenoise, fuzzyand stoehastie. Thedataminingresearchhasstartedtoobtaintheuniversalunderstandin gsinee 2000.EaehkindoftheoryasPeetachievementwasPublishedfrom2003.T hedata miningaPPlieationaPPearsearlyinthetradearea, alongwithitssuceessfulusein commercialarea, thisteehnologyaPPlytomoreandmoredomains. IndomestiehygienieasPeet, someexamPlesofdataminingusagehavealready existed, butthiskindofresearehhasnotaPPearedintheehildProPhylaetieinoeula tion informationasPeet, BecausetheehildProPhylaetieinoeulationinformationsystemisa newthingandthere15nodataminingmodelavailable.Butalongwithmor eandmore aPPlicationsoftheehildProPhylactieinoeulationmanagementinformati onsysteminthe nationwidearea, toaPPlythiskindofresearehhasalreadybeenimminent.Thegoalof thearticle15toestablishagoodorganizationalstrueturesystemthrough whiehPeoPle eanea 叮 onhighlyeffeetivesignificantdataminingaPPlieationsandProvidetlle aceurateeffectiveanalysisresultforthePolicy-makingmen. TheinnovativePointsofthisartiele15thatinthisartiele1trytoaPPlythedat a warehouseanddataminingtheoryandteehnologyintheehildProPhylaet ic, thenweean usedataminingtheorytoanalyzethemedieinedata. Keywords:Multi一dimensionaleube,Datawarehouse,Datamining, ExPanded ProgrammedonImmunization,Children, 5immun往ation 1. 卫生部于2007年1月5日下发了《儿童预防接种信息报告管理 工作规范》,标志着“儿童预防接种信息管理系统”的建设达到了一 个新高度。全国范围内不同级别的儿童预防接种信息管理系统及相应 的数据库会陆续建立起来,儿童预防接种管理系统的数据库是一个庞 大而复杂的“金库”,如何利用好这些数据,开发这些数据为疾病预 防控制工作服务,必将是卫生疾控部门日后面临的任务与课题。济南 儿童预防接种信息管理系统的起步早, 2001年就己经在全市推行。市区儿童基本己经达到有接种卡。全市182个接种门诊中很大一部分 都有了本机的数据库。这近6年的大批真实详尽的儿童预防接种信息 数据是做数据挖掘最宝贵的财富,是其它地市所不具备的。也是能够 第一时间开发研究儿童预防接种信息管理系统数据模型和数据挖掘 的有利条件。文中以 MICrosoftSQLServer2000为数据仓库平台,多维数据模型采用了星型架构,数据仓库中的数据以多维视图(数据立方)的形式存储,通过Analysis ServiCeS组件提供的OLAP分析功能,利用MDX语言对多维数据集进行了多维度及度量值的分析。数 据接口采用了目前功能最强月.极适于多维数据结构的 ADOMD接 日,并采用 VISualBasic6.0编程实现。 希望依托本系统平台在一下一步的工作中探索尝试结合国家现 有的《疾病监测信息报告管理系统》、《突发公共卫生事件报告管理信 息系统》、《出生登记管理信息系统》和《传染病自动预警信息系统》 建立一个新的数据挖掘平台对疾病的预警从个案化的角度,地域群体 的角度做进一步研究。 2 随着儿童预防接种的开展,儿童预防接种部门积累了大量的数 据,这些数据中都蕴藏着许多知识,暗藏着许多规律,如能广泛发掘 并充分利用这些知识,将使我们更好的为儿童和家长服务,更准确的 掌握和了解与接种相关的信息,从而对防控疾病的流行提供有利的帮 助。但是,这些数据时间跨度人,涉及方面广,数量庞大,头绪复杂, 很难用传统手段进行分析。使用数据仓库技术和OLAP技术,可对这 些数据进行多方面的综合分析,因为数据仓库能从分布在各的OLTP 数据库中提取数据,并对其进行预处理,为决策分析提供所需数 据;OLAP则利用存储在数据仓库中的数据完成各种分析操作,从中发 现决策管理人员所需的知识,并以直观易懂的形式将分析结果展示给 决策人员,为他们的决策提供客观依据。 经过查阅资料,我发现国内外企业领域、科研领域,尤其商业领 域对数据挖掘已经做了大量研究并有广泛的应用,但在儿童预防接种 领域国内外并未见相关材 料。“儿童预防接种信息管理系统与数据挖掘”就是在这样的需求下, 对儿童预防 接种管理系统数据挖掘利用的一种尝试。此项研究是我国“儿童预防 接种信息管 理系统数据建模和数据挖掘”方面的首次尝试。并试图结合国家现有 的《疾病监 测信息报告管理系统》、《突发公共卫生事件报告管理信息系统》、《出 生登记管理 信息系统》和《传染病自动预警信息系统》建立一个新的数据仓库对 疾病的预警 从个案化的角度,地域群体的角度做进、一步尝试。 因此在石教授的指一导下,我选择了此课题进行研究,以期对儿童预 防接种决策 科学化、准确化、快速化、知识化做一点力所能及的事情,但愿这一 火花,能点 燃数据仓库及OLAP技术在儿童疾病预防领域中的应用之火。 3本课题所做的工作 本课题以济南市儿童预防接种信息管理系统的计划免疫数据为数据 源,建立了 多维数据模型及多维立方体。本论文重点研究以下内容: 1、数据仓库基本技术在医学领域内的应用 2、儿童预防接种信息化多维立方体的规划和建立 3、 SQLServeranalysiSService的应用分析 、儿童预防接种信息多维数据模型的建立 、儿童预防接种信息OLAP的设计 、儿童预防接种信息MDx多维查询分析 、儿童预防接种信息的数据挖掘 1,4系统设计采用的开发平台 本系统采用Micr。 SoftSQLServer2000做多维立方体服务器,OLAP 服务器 采用 MierosoftOLAPserveranalysiS,用MDx作分析查询语言,使 用多维立方 体与OLAP服务器进行无缝链接,提高数据的一致性,便于数据的转 换和传输,提 高儿童预防接种信息管理系统的开发速度和可靠性,避免数据不兼容 带来的麻烦。 3 第二章数据挖掘的基本原理 2.1数据挖掘基本概念 数据挖掘 (DataMining)是指从大量的、不完全的、有噪声的、模糊 的、随 机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又 是潜在的和 有用的信息或知识。它反复使用多种数据挖掘算法从观测数据中确定 模式或合理 模型。这些数据可以存放在数据库、数据仓库或其他信息存储中。数 据挖掘是一 个年轻的跨学科的领域,源于诸如数据库系统、数据仓库、统计学、 机器学习、 数据可视化、信息检索和高性能计算。其他涉及的领域包括神经网络、 模式识别、 空间数据分析、图像数据库、信号处理等许多方面,包括商务、经济 学和生物信 息学等知识范畴。 广义_匕数据挖掘是指从存放在数据库、数据仓库或其他信息库中的 大量数据 中挖掘有趣知识的过程。基于这样的观点,一个典型的数据挖掘系统 应具有这样 一些主要部分: 数据库、数据仓库或其他信息库:这是一个或一组数据库、数据仓库、 电子表 格或其他类的信息库。可以对这些数据进行数据清理和集成。 数据库或数据服务器:根据用户的数据挖掘请求,数据库或数据仓库 服务器负 责提取相关数据。 知识库:存储领域知识,用于指导搜索、预处理、挖掘和评价结果模 式的兴趣 度等。 数据挖掘引擎:数据挖掘系统的基本部分,由一组功能模块组成,用 于挖掘具 体类别的知识,用于执行特征化、关联和相关分析、分类、预测、聚 类分析、离 群点分析和演变分析等任务。 模式评估模块:通常用兴趣度衡量,并与数据挖掘模块交互,以便将 搜索聚焦 在有趣的模式上。也可以与数据挖掘模块集成在一起,提高挖掘的性 能。 用户界面:该模块帮助用户与数据挖掘系统本身进行沟通交流。一方 面用户通 过该模块将自己的挖掘要求或任务提交给挖掘系统,以及提供挖掘搜 索所需要的 相关知识;另一方面系统通过该模块向用户展示或解释数据挖掘的结 果或中间结 果;此外该模块也可以帮助用户浏览数据对象内容与数据定义模式、 评估所挖掘 4出的模式知识,以及以多种形式展示挖掘出的模式知识。 数数据库或数据仓库服务器器 数据库日数据仓库}}万维网其他信息 储存库 2.2数据挖掘技术 数据挖掘技术的发展时间并不是很长,但是随着近些年来计算机科学 的迅猛发 展,数据挖掘技术的发展也取得了长足的进步。现在较为流行的常用 技术有以下 几种: 2.2.1人工神经网络 人工神经网络是对人类大脑系统的特征性的一种描述。简单地讲,它 是一个数 学模型,可以用电子线路来实现,也可以用计算机程序来模拟,是人 工智能研究 的一种方法。它仿照生理神经网络结构的非线形预测模型,通过学习 进行模式识 别。它的特点和优越性,主要表现在三个方面: 5 1)具有自学习功能。例如实现图像识别时,只需先把许多不同的图像 样板和 对应的应识别的结果输入人工神经网络,网络就会通过自学习功能, 慢慢学会识 别类似的图像。自学习功能对于预测有特别重要的意义。预期未来的 人工神经网 络计算机将为人类提供经济预测、市场预测、效益预测,其前途是很 远大的。 2)具有联想存储功能。人的大脑是具有联想功能的。如果有人和你提 起你幼 年的同学张某某,你就会联想起张某某的许多事情。用人工神经网络 的反馈网络 就可以实现这种联想。 3)具有高速寻找优化解的能力。寻找一个复杂问题的优化解,往往需 要很大 的计算量,利用一个针对某问题而设计的反馈型人工神经网络,发挥 计算机的高 速运算能力,可能很快找到优化解。 数据挖掘技术中,应用最为广泛的模型是前馈神经网络(feed一 forwardneural network),也就是多层感知器(MLP)。MLP结构提供了从实数的输入向量x到实 数的输出向量y的非线性映射。因此,MLP可以用作回归问题的非线性模型,也可 以通过对输出数据做出恰当的解释来用于分类。 2.2.2决策树 决策树是一系列的树状结构的列表集,它由树根,树叶,内部节点, 树枝组成。 它根据一定的算法(如:最大的嫡减少量,XZ统计量,基尼系数等)自 动对数据 收集信息,选择对当前决策所含信息最多的判别属性,并用它来制定 判别规则, 代表着决策集的树形结构。 在数据挖掘算法中,决策树比神经网路好在它可以生成一些规则,当 我们进行 一些决策,同时需要相应的理由时,最好使用决策树。常用的算法有 以RT,CHAIR, ID3,C4.5,C5.0等。 2.2.3遗传算法 遗传算法是一类模拟生物进化的智能优化算法,它是由J.H.H。lland 于六一{1 年代提出的。目前,遗传算法己成为进化计算研究的一个重要分支。 与传统优化 方法相比,遗传算法的优点是: l)群体搜索 2)不需要目标函数的导数 3)概率转移准则 数据挖掘技术中的遗传算法应用是基于进化理论,并采用遗传结合、 遗传变异、 以及自然选择等设计方法的优化技术,主要是进化算法,遗传神经网 络算法等。 4关联规则挖掘算法 关联规则的概念首先由R.Agrawal等人在1993年首次提出。其一般 定义如下: J={ 1,12,„,Im}是一项目集,D是一事务数据库,其中每个事 务TgJ。 关联规则A二>B的置信度为C,表示为条件概率P(B}A)。就是: SuPPort(A=)B)=P(AU) eonfidenCe(A=>B)=P(BIA) 支持度(S叩port)和置信度(confidence)两个闻值是描述关联规则的 两个 重要概念,支持度反映关联规则在数据库中的重要性,置信度衡量关 联规则的可 信程度。 基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型;基于规则 中数据的抽象层次,可以分为单层关联规则和多层关联规则;基于规则中涉及到 的数据的维数,关联规则可以分为单维的和多维的。 关联规则是描述数据之间存在关系的规则,形式为“A1八A2八„An?Bl八B2八„ Bn”。一般分为两个步骤:1、求出大数据项集。2、用大数据项集产生 关联规则。 常用的挖掘算法有:经典频集方法,FP一growth方法, Min_Hashing(MH)方法, L。 Cality_sensitive_Hashing(LsH)方法等。另外,对于处理挖掘多 层、多维的 关联规则,我们将OLAP和 DataMining技术结合在一起形成了新的体系一 oLAM(on一 LineAnalyticazMining)方法。从关联规则中我们可以挖掘出他们 之间的相互关系,形成知识,进而指导生产。 另外,除了上述的四个常用方法外,还有粗糙集方法,模糊集合方法, Bayesian BeliefNet。rds算法,最邻近算法(k一 nearestneighborsmethod(kNN))等。 采用上述技术的某些专门的分析工具己经发展了大约十年的历史,不 过这些工具 所面对的数据量通常较小。而现在这些技术已经被直接集成到许多大 型的工业标 准的数据仓库和联机分析系统中去了。 2.3数据挖掘的步骤 数据挖掘是一个复杂的过程,它的一般步骤是: (1)分析问题:源数据数据库必须经过评估确认其是否符合数据挖掘 标准。 以决定预期结果,也就选择了这项工作的最优算法。 (2)提取、清洗和校验数据:提取的数据放在一个结构__卜与数据模型 兼容的 数据库中。以统一的格式清洗那些不一致、不兼容的数据。一旦提取 和清理数据 后,浏览所创建的模型,以确保所有的数据都已经存在并且完整。 (3)创建和调试模型:将算法应用于模型后产生一个结构。浏览所产生 的结 构中数据,确认它对于源数据中“事实”的准确代表性,这是很重要 的一点。虽 然可能无法对每一个细节做到这一点,但是通过查看生成的模型,就 可能发现重 要的特征。 (4)查询数据挖掘模型的数据:一旦建立模型,该数据就可用于决策支持了。 在微软的数据挖掘解决中,该过程通常使用VB或ASP通过 oLEDBforData MiningProvider编写前端查询程序。 (5)维护数据挖掘模型:数据模型建立好后,初始数据的特征,如有效 性, 可能发生改变。一些信息的改变会对精度产生很大的影响,因为它的 变化影响作 为基础的原始模型的性质。因而,维护数据挖掘模型是非常重要的环 节。 2.4数据挖掘的功能 通过预测未来趋势及行为,做出前瞻的、基于知识的决策。数据挖掘 的目标是 从数据库中发现隐含的、有意义的知识,主要有以下五类功能: 1、自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手 工分析的 问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场 预测问题, 数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用 户,其它可预 测的问题包括预报破产以及认定对指定事件最可能做出反应的群体。 2、关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多 个变量的 取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序 关联、因果 关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道 数据库中数 据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带 有可信度。 3、聚类分析 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强 了人们对 客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要 包括传统的 模式识别方法和数学分类学。80年代初, Mchalski提出了概念聚类 技术,其要点 是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有 某种内涵描 述,从而避免了传统技术的某些片面性。 4、概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对一象的有关 特征。概念 描述分为特征性描述和区别性描述,前者描述某类对象的共同特征, 后者描述不 同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所 有对象的共 性。生成区别性描述的方法很多,如决策树方法、遗传算法等。 5、偏差 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意 义。偏差 包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观 测结果与模 型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻 找观测结果 与参照值之间有意义的差别。 2.5数据挖掘的应用 数据挖掘技术从一开始就是面向应用的。目前,在很多领域,数据挖 掘都是一 个很时髦的词,尤其是在如银行、电信、保险、交通、零售(如超级市场)等商 业领域。数据挖掘所能解决的典型商业问题包括:数据库营销(Database Marketing)、客户群体划分 (CustomerSegmentati。n及ClaSSifieation) 9 背景分析(Pr。 fileAnalysiS)、交叉销售(CroSS一Selling)等市场分析行为, 以及客户流失性分析 (ehurnAnalysiS)、客户信用记分 (ereditseoring)、欺 诈发现 (FraudDetection)等等。 在国外,成功的案例己有许多,举例来说: 1、电话收费和管理中的应用 加拿大BC省电话公司要求加拿大 SimonFraser大学KDD研究组根 据其拥有的 十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制 定既有利于 公司又有利于客户的优惠政策。 2、竞技运动中的数据挖掘技术的应用 美国著名的国家篮球队NBA的教练,利用工BM公司提供的数据挖掘工具一 AdvancedScout临场决定替换队员。 AdvaneedSeout是一个数据分析工具,教练 可以用便携式电脑在家里或在路上挖掘存储在NBA中心的服务器上的数据。每一 场比赛的事件都被统计分类,按得分、助攻、失误等等。时间标记让 教练非常容 易地通过搜索NBA比赛的录像来理解统计发现的含义。 3、数据挖掘技术在商业银行中的应用 金融事务需要搜集和处理大量的数据,由于银行在金融领域的地位、 工作性质、 业务特点以及激烈的市场竞争决定了它对信息化、电子化比其它领域 有更迫切的 要求。利用数据挖掘技术可以帮助银行产品开发部门描述客户以往的 需求趋势, 并预测未来。 美国Firstar银行使用Marksman数据挖掘工具,根据客户的消费模式预测何 时为客户提供何种产品。Firstar银行市场调查和数据库营销部经理发现:公共数 据库中存储着关于每位消费者的大量信息,关键是要透彻分析消费者 投入到新产 品中的原因,在数据库中找到一种模式,从而能够为每种新产品找到 最合适的消 费者。Marksman能读取800到1000个变量并且给它们赋值,根据消费者是否有家 庭财产贷款、赊帐卡、存款证或其它储蓄、投资产品,将它们分成若 干组,然后 使用数据挖掘工具预测何时向每位消费者提供哪种产品。事实证明, 预测准客户 的需要才能使商业银行具有绝对的竞争优势。 l0 第三章儿童预防接种信息管理系统的技术基础 3.1数据仓库的基本知识 为做好儿童预防接种信息管理系统的数据挖掘,首先要将各接种门诊 的数据上 传到数据仓库,这就需要对数据仓库的集成理论进行研究,选择正确 合适的存储 策略。 3.,.1数据仓库的概念与特征 数据仓库己被多种方式定义,使得很难严格地定义它。宽松地讲,数 据仓库是 一个数据库,它与组织机构的操作数据库分别维护。数据仓库系统允 许将各种应 用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息 处理提供支 持。 按照W.H.Inmon,一位数据仓库系统构造方面的领头建筑师的说法,“数据 仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持 管理决策制 定”。这个简短、全面的定义指出了数据仓库的主要特征。四个关键 词,面向主题 的、集成的、时变的、非易失的,将数据仓库与其它数据存储系统(如, 关系数 据库系统、事务处理系统、和文件系统)相区别。让我们进一步看看 这些关键特 征: 1、面向主题的:数据仓库围绕一些主题,如顾客、供应商、产品和销售组织。 数据仓库关注决策者的数据建模与分析,而不是构造组织机构的日常 操作和事务 处理。因此,数据仓库排除对于决策无用的数据,提供特定主题的简 明视图。 2、集成的:通常,构造数据仓库是将多个异种数据源,如关系数据库、 一般 文件和联机事务处理记录,集成在一起。使用数据清理和数据集成技 术,确保命 名约定、编码结构、属性度量的一致性。 3、时变的:数据存储从历史的角度(例如,过去5一10年)提供信息。数 据仓库中的关键结构,隐式或显式地包含时间元素。 4、非易失的:数据仓库总是物理地分离存放数据;这些数据源于操作环境下 的应用数据。由于这种分离,数据仓库不需要事务处理、恢复和井行 控制机制。 通常,它只需要两种数据访问:数据的初始化装入和数据访问。 l! 概言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数 据模型的 物理实现,并存放企业决策所需信息。数据仓库也常常被看作一种体 系结构,通 过将异种数据源中的数据集成在一起而构造,支持结构化和启发式查 询、分析报 告和决策制定。 根据数据仓库的基本特征,本文在下一章中对儿童预防接种信息管理 系统数据 仓库的主题进行了分析,然后进行了数据的装载设计(即DTS设计), 并对数据的 定时更新进行了研究和设计。 3.1.2数据仓库的系统结构 要设计数据仓库,必需清楚数据仓库的体系结构,以便根据其体系结 构进行功 能的划分并进行具体的实现。数据仓库系统的体系结构通常分为三层: 底层是仓 库数据库服务器,负责从操作数据库和外部数据源中提取数据,网间 连接的接口 可以是oDBc、OLEDB、JDBC、ADo或ADOMD等,本系统选用了最适合进行多维数 据操作的 ADOMD接口。中间层是OLAP服务器,负责业务逻辑的实现,所有客户 机均可对它进行访问,由OLAP系统实施管理。顶层是客户层,负责 数据的表示, 包括查询和报表工具、分析工具和数据挖掘工具等。 儿童预防接种信息管理系统数据仓库采用三层结构,因为该结构使得 数据都集 中存储在服务器上,所有用户都可以访问到相同的数据,提高了数据 的一致性; 业务逻辑和安全规则在服务器上一次性定义后,可被所有终端用户使 用,节省了 客户的定义时间;关系数据库服务器仅返回应用程序所需数据,减少 了网络流量, 避免了网络拥塞;数据存储在服务器上,客户机硬件不需要具备存储 和处理大量 数据的能力,节省了硬件开销;数据集中存储在服务器上,备份、恢复都很容易。 3.1.3数据仓库的数据装入与更新 儿童预防接种信息管理系统数据仓库中的数据来自于各接种门诊,进 入数据仓 库之前需要经过提取、校验、清理、转换和传输等几个阶段,这项工 作的好坏将 直接影响将来数据仓库系统数据的完整性、准确性和及时性。 本系统使用 MicrosoftSQLServer2000的DTS工具实现上述功能, 因为DTS 工具能自动或交互地从多个异构数据源向数据仓库装入数据,且在装 入的过程中 实现数据的校验、清理和转换。DTS还集成了微软通用数据访问 (UniversalData ACceSS)技术,执行由其他语言编写的脚本程序完成必要的数据处理 任务。本系统 l3 选用VB语言进行编程,实现DTS数据装入任务,具体实现见后章节。为便于使用 OTS,一卜面给出DTS的组件模型。 中间数据存储仓库服务器 数据源 可操作数据存储数数据仓库库 数数据集市市 业务智能 分析型 应用程序 数据分布与清洗数据集市 报报告 告 查查询工具具 数据挖掘 团团团 元数据 图3一 2SQLServer20OO的DTS组件模型 在儿童预防接种信息管理系统运行过程中,随着事务处理系统中数据 的变化, 根据数据仓库时变性的特征,数据仓库中的数据也要定时更新,更新 的数据分为 配置信息和业务进展信息。配置信息存放在数据仓库的维表中,数据 量不人,也 不易发生变化,选用完全更新方式。业务进展信息存储在数据仓库的 事实表中, 数据量很大,且时时变化,选用增量更新方式,更新的内容是自上次 更新后在OLTP 数据库中变化了的数据。系统采用日志文件方法捕捉更新的数据,因 为该方法在 提取数据时不扫描整个数据库,而只局限于日志文件,因而不影响 OLTP的性能。 3.1.4多维数据仓库的设计 为了得到更好的数据查询响应性能,设计儿童预防接种信息管理系统 数据仓库 时重点考虑系统的主题和维的设计,同时考虑数据的装载策略、存取 策略以及系 统的长期维护等问题。主要设计步骤如下: J七童预防接种信息管理系统主题的确定:通过与免疫管理人员反复 交流,详细 了解他们的业务需求、分析需求及报表需求,确定了儿童预防接种信 息管理系统 的几个主要主题,如:传染病发病主题、接种情况主题、疾病流行卞题、疫苗情 况主题、经费主题、成果的经济效益及社会效益等。 l4 儿童预防接种信息管理系统数据仓库的逻辑设计:确定主题后,需要 对主题包 含的信息进行详细定义,并对事实表和维表进行详细定义。具体实现 见第四章。 源数据抽取、转换和装载:儿童预防接种信息管理系统数据仓库的数据都是来 预防接种门诊,这些数据都要经过抽取、清洗、转换后才能装入数据 仓库。数据 的清洗、转换、装载操作在第五章中实现。 数据的访问设计:儿童预防接种信息管理系统中的数据按统一格式、 不同主题 存放到数据仓库后,接着要进行数据的访问设计。为提高访问数据的 灵活性,本 课题采用了自己编程的方式访问数据仓库中的数据,具体实现见后章 节。 不间断的维护方案设计:卫生局的领导决策时依据的是数据仓库中的 数据,如 果其中的数据不进行及时更新,决策依赖的数据就会缺乏最新信息; 数据加载后, 若不进行及时的预聚集,查询的速度就会下降;再则,数据仓库中的数据量增长 速度很快,若不及时进行优化,就会影响查询速度。所以,儿童预防 接种信息管 理系统数据仓库需要定时维护,否则它的性能就会越来越差。上述内 容将分别在 后续章节中实现。 3.2OLAP技术概论 在设计过程中发现,要想对数据进行高效、快速、灵活、准确地查询 与分析, 并以直观易懂的形式将查询结果展现给他们,必须采用OLAP技术,OLAP技术的具 体要求由其系统准则进行了限定。 3.2.10以P系统准则 联机分析处理(OLAP)的概念是1993年由E.F.Codd博士提出的,在提出该 概念的同时,Codd博士提出了O以P系统的12条准则: 1、OLAP模型必须提供多维概念视图:用户决策分析的目的不同,分 析问题的 角度也就跟着变化,而被分析的数据本身是多方面的,因此OLAP的 概念模型是多 维的。 2、透明准则:对用户和最终分析员来说,OLAP都是透明的。 3、存取能力准则:OLAP系统不仅能进行开放的存取,还能提供高效 的存取。 !5 4、稳定的报表能力:当系统数据的维数和层次数增加时,提供给最终 分析员 的报表能力和响应速度不应该有明显的减慢。 5、客户/服务器体系结构:OLAP是建立在客户/服务器体系结构之上的。 6、维的等同性准则:系统的每一数据维在数据结构和操作能力上都是 等同的。 7、动态的稀疏矩阵处理准则:OLAP工具必须提供最优的稀疏矩阵处理能力。 8、多用户支持能力准则:多个用户分析员可以同时工作于同一分析模 型上或 在同一数据上建立不同的分析模型。 9、非受限的跨维操作:系统的多维数据之间存在着固有的层次关系, 系统应 提供计算完备的语言来定义各类计算公式。 10、直观的数据操纵:儿童预防接种信息管理系统中的数据操纵都比 较直观, 其中的向上综合、向下挖掘和其它操作都能通过直观、方便的操作来 完成。 11、灵活的报表生成:儿童预防接种信息管理系统的报表应能从各个 方面显 示出从数据模型中综合出的数据和信息,充分反映数据分析模型的多 维特征。 12、不受限维与聚集层次:分析员可以在任意给定的综合路径上建立 多个聚 集层次。 3.2.2OLA户的特点及结构 本文之所以选用联机分析处理(OLAP)方式对儿童预防接种信息管理系统进行 分析,是因为它具有以下几个突出特点: 快速性(Fast):OLAP能在凡秒钟内将分析结果呈现给用户。可分析性 (AnalysiS):OLAP系统能处理与应用有关的任何逻辑分析和统计分 析,并可事先 编程实现所要求的分析。多维性 (Mult1d1mensi。nal):系统能够 提供对数据分析 的多维视图,使最终用户能从多角度、多侧面、多层次考察数据库中 的数据。共享 性(Shared):OLAP使得出的数据能被共享。信息性(工 nformation):OLAP应用 能访问所有与应用有关的数据,且数据量可以相当大。 上述特点正是儿童预防接种信息管理系统所需要的,所以本文选择 OLAP方式 对数据仓库中的数据进行分析。那么,如何构建儿童预防接种信息管 理系统的OLAP 模型呢?在构建该系统时,本文采用了将OLAP与OLTP分开的三层体 系结构,如 图3一3示: l6 数据仓库细节数据数据仓库综合数据 OLAP服务器 前端软件 第三层:企业服务器 共享数据存储 与基层运作系统的连接 第二层:应用服务器 共享局部数据 共享应用逻辑 第一层:客户 最终用户功能 数据显示 个人数据存储 个人应用逻辑 图3一3儿童预防接种信息管理系统OLAP的三层体系结构 3.2.3OLAP的性能 儿童预防接种信息管理系统的OLAP主要具有以下性能: 1、多维视图能力:儿童预防接种信息管理系统的数据模型本身是多维 的(如 发病情况立方有时间维、病例维、人口情况维、地域维组成),使得分析人员可对 数据库中的信息进行灵活访问(上卷、一卜探、切片、切块、旋转等),并能在任何 维、任何级别上聚集分析数据。 2、强大的计算能力:儿童预防接种信息管理系统的OLAP通过MDX语句支持 复杂的计算,如百分比计算、趋势分析、位移平均值和增长百分比等, 正是OLAP 强大的执行复杂计算的能力,使得管理决策人员从数据仓库的数据中 发现信息、 得到知识,并将原始数据转化成他们需要的信息。 3、OLAP中均包含时间项:儿童预防接种信息管理系统的OLAP中都包含时间 项,它是决策人员进行趋势分析的基础。 3.2.4OLAP按数据组织方式的分类 儿童预防接种信息管理系统的数据组织方式非常重要,它直接影响数 据分析 的速度和质量。根据OLAP服务器端数据组织方式的不同,OL炉分 为多维 OLAP(MOLAP)、关系型OLAP(ROLAP)和混合型OLAP(HOLAP)三种结 构。 MOLAP(Multidimensi。 nalOLAP)利用专有的多维数据库存储数据,多维数据 在存储中形成立方(cube)结构,并以多维视图的方式显示。在这种结 构中,分散 17 的数据经过提取、清理、转换等步骤后提交给多维数据库,但存入多 维数据库前 要进行一系列的预处理,并将结果按一定的层次结构存入多维数据库 中。该存储 结构能迅速响应决策人员的分析请求,并快速将分析结果返回给用 户。但因进行 了较多的预处理,灵活程度差。 ROLAP(Relati。 nalOLAP)的底层数据库是关系型数据库,其中的数 据预处理程 度比较低,响应速度比较慢。 HOLAP存储方式中,它的底层是关系型的,高层是多维矩阵型的, 事实表按 ROLAP方式存储,预先计算的聚合按MOLAP方式存储。 这只种存储方式在处理时间及附加空间的要求上均有较大的差别。根 据Erik Thomsen等人的试验,当请示现有聚集的查询时它们之间的差异如 表3一1所示。 起始RDBMS大小:10.69Ogmb 由表中数据可见,当请示现有聚集的查询时,ROLAP花费最多的处理时间,_且 要求最大的额外磁盘存储空间。HOLAP花费最少的处理时间,且要求最小的存储空 间。MOLAP的处理时间比HOLAP略长,但比ROLAP要快10倍以上。 但是,HOLAP不存储源数据的复本,当需对源数据进行查询而该单 元又没有对 应的聚合数据时,必须从关系数据库中检索数据(称作请示叶子数据),这时需要 的时间同ROLAP结构相当。具体见表3一2(表中的数据为执行相应操作所需的时 间,单位为秒)。 由表2.3中对三种存储模式查询性能的比较可明显看出,当需要请示 叶子级 别的数据来满足查询所需时,MOLAP比其它两种存储模式快得多。为了节省存储空 间,儿童预防接种信息管理系统的预聚集程度不高,在查询过程中经 常需要访问 叶子级别的数据,为提高系统的响应速度,存储模式选择MOLAP结 构。 3.2.5OLAp的多维数据结构 在MOLAP存储结构中,多维数据以数据立方的形式存在,通常有两 种结构: 超立方结构(Hypercube):该结构用三维或更多的维描述一个对象,每 个维彼 此垂直,数据的测量值发生在维的交叉点上,数据空间的各个部分都 有相同的维属 性。该结构适于排列整齐的数据库,特点是简化终端用户的操作。 多立方结构 (Mult1cube):该结构将超立方结构变为子立方结构,这 些子立方 是大数据维数的子集,?个子立方面向某一特定的应用。 虽然超立方结构易于理解,可以提供高水平的报告和多维视图。但多 立方结构 具有良好的视图翻转性和灵活性,节省存储空间并减少计算量,所以 本系统使用 多立方结构,将每个主题设计成一个立方。既提高了查询响应速度, 又节省了存 储空间,且查询所得的结果更易于理解。 3.2.6OALp的多维数据分析 儿童预防接种信息管理系统的oLAP多维分析主要有钻取 (DrinUp和 Drill Down)、切片 (511ce)、切块(DICe)、旋转(Pivot)等。 l9 1、切片和切块:在儿童预防接种信息管理系统的多维数据结构中,按 二维进 行切片,按三维进行切块,可得到所需的数据。如在接种发病情况立 方中选择“病 例、地域”两个维作为切片维,可得到各级病例、地域的二维表格, 选择“时间、 病例、地域”三个维作为切块维,可得到时间、病例、地域段的只维 数据立方。 2、钻取:通过下钻则获得想要的细节数据。 3、旋转:在儿童预防接种信息管理系统中,通过旋转,可以让决策人 员从不 同的角度观察数据,经过换位思考可得到更多的启发。 3.3SQLServer相关性能研究 3.3.1SQLServer2000概述 SQLServer2000是MicroS0ft公司研制的数据库管理和数据分析开 发平台, 该平台为数据管理与分析带来了灵活性,允许单位在快速变化的环境 中从容响应, 从而获得竞争优势。因此,本课题选择该平台进行系统开发。 3.3.2分析服务器 成性 析。 SQLServer2000的分析服务器 (AnalysiSServer)提供了最完整、最具集 、可支持Web的分析服务,它可让用户只花很少的时间而对大量数 据进行分 SQLServer2000中包括新版的 OLAPServieeS, 并将它们称为 AnalysiSServiceS。本文使用AnalysiS 同时增加了数据挖掘功能, Serviees对儿童预防接种 信息数据仓库中的数据进行分析,图3一4为本系统的 AnalysiSServiceS体系结 构。 由图可见,本系统的 AnalysiSServiceS包含以下几个组件:数据源、数据 转换、数据存储、AnalysiS服务器和数据透视表服务,其中数据存储 包括儿童预 防接种信息管理系统的数据仓库、数据集市、OLAP数据库和挖掘模型。AnalysiS ServiceS的核心是AnalysiS服务器,该服务器控制了所有OLAP数据的创建和管 理,它从数据仓库中提取和组织数据,并在多维数据库中对数据进行 必要的聚集 和处理。 本文使用的数据源大多是关系型的,利用DTS工具将其中的数据导 入数据仓 库,并将数据结构转换成星型模式,然后由Analysi:Service利用数据仓库中的 数据创建数据立方,这部分的具体实现将在后章介绍。 3.3.3数据透视表 由图3一5可见,数据透视表 (PivotTableService)组件是AnalysiS服务器 的客户查询接口,对客户来说, PivotTableServiCeS通过OLEDB接口将数据库 连接到AnalysiS服务器,查询程序通过 PivotTableService与 OLAPServiees 22 服务器进行通信,查询语言可以是MDX或SQL语言。 AnalysiSServiceS支持各种 数据存储模式,其中包括本文选用的MOLAP模式,同时 AnalysiSServices支持 OLEDB、ADO、 ADOMD等接口的用户自定义函数,为数据的导入、 存储、聚集、分 析以及结果的展示提供了平台。 客户端可利用 OLEDB或 ADOMD接口进行客户开发,客户端应用程 序可使用C++ 对 OLEDB接口进行访问,或使用组件对象模型(COM)自动化语言(例 如 MierosoftVisualBasie)对ADO及其扩展接口进行访问。本系统使用 ADOMD接口, 从数据仓库中提取信息时,使用的查询语言为MDX,具体实现见第五章。 23 第四章儿童预防接种信息管理系统多维数据模型的建立 所谓数据模型,就是对现实世界进行的抽象,抽象的程度不同,也就 形成了 不同抽象级别层次上的数据模型。本文着重设计儿童预防接种信息管 理系统数据 仓库的概念模型和逻辑模型。 4.1儿童预防接种信息管理系统概念模型的建立 概念模型是主观与客观之间的桥梁,是为系统设计、信息收集而服务 的一个 概念性工具,其任务是将现实世界抽象为信息世界,然后将信息世界 转化为机器 世界。概念模型就是信息世界中的信息结构。 关系数据库的概念模型通常采用ER图,但是,ER图反映的是实体之间的关系, 不适于进行多维分析。为便于管理决策人员进行多维分析,并使最终 的分析更简 单、分析结果更直观,本系统将概念模型设计成多维视图。在进行分 析时,通过 对多维视图切片、切块、上钻、下探和旋转,可轻松满足决策人员所 需的各种分 析需求。另外,采用多维概念视图方法能比传统的ER图方法节省很多查询时间, 并大大降低系统的开销。 设一计概念模型所要完成的任务主要有:界定系统边界、确定系统主题域、建 立概念模型,主题域确定后,还要进一步确定每个主题应包含的数据 内容,即对 主题域进行细化,这些都要由分析的要求而定。 4.1.1系统边界的界定 济南市儿童预防接种信息管理的内容很多,信息量非常大。济南市自 2004年 5月就开始着力建设全市儿童计划免疫信息化管理系统(客户端),通过前期大量 的准备工作,安装并培训了130个接种门诊,到2004年9月软件正式进入运行阶 段,截止2007年9月30日,全市信息化管理已覆盖超过15万余名儿童。在如此 多的历史数据前做出决断并非易事。为便于卫生局领导进行决策,根 据数据仓库“多维数据模型围绕中心主题进行组织”的指导思想,本 文把分散的数据按照不同的主题重新进行组织,并按照多立方结构的 形式把它们分别存放到数据仓库的不同子立方中。经过反复交流,认 真分析,发现对儿童预防接种信息进行的决策主要有:当前流行病发病情况,儿童的接种信息情况,流行病发病人群趋势总体状况,疫苗 的运转情况,人员情况等。 4.1.2数据仓库主题的确定 根据工作的需要,经过与相关人员的反复交流,确定了儿童预防接种 信息管 理系统的主题如下: 1、流行病发病情况:通过对各种传染病的报告情况,各地区的人口数 结合各 类疾病自身的特点和具体情况,判断疾病的发病率,对可能爆发的疾 病提出预警, 判断某个地区是否爆发。 2、接种情况:通过掌握人口资料、接种情况,地理等因素,结合实际 情况, 估算各类疫苗的接种率、及时接种率、成功接种率。 3、疾病流行情况:通过疾病情况,接种情况,和其他因素判断可能流 行的疾 病和流行的范围,及早将疾病的苗头扑灭。 4、疫苗情况:通过了解不同疫苗的使用情况如:疫苗名称,批号,厂家,库 存等,做好疫苗的统计。为领导做出尽可能准确的疫苗储备方案提供 依据。 5、人员情况:对济南市从事预防医疗人才的职称、学历、所学专业以 及他们 拥有的成果等情况进行分析,结合我市的情况,决定下一步人才引进 及培养的专 业方向、学历层次及数量等。 25 4.1.3多维概念模型的建立 根据上述主题及分析所需,设计木系统的概念模型如下: 病例维 地域维各种流行病的发病率 对可能爆发的疾病提出预警 判断某个地区是否爆发 维时间 人日情况维 传染源维 况维疫免清叨肠种疾病最容易流行 容易在哪些地方流行 容易在哪些年龄中流行 情维疾病况 地理维人群维 疫苗维 连淮令 各地区的疫苗使用量 疫苗的库存情况 应当储备那种疫苗 量维用 库存维 称维职 .4主题域的细化 根据上述主题及概念视图,为便于建立逻辑模型,现将各主题细化如 下: .流行病发病主题元数据: 根据流行病的主要三间分布设计 一是地域分布:是否具普遍性、地区性、自然疫源性、外来性或输入 性。 二是时间分布:是否具有季节性、周期性或长期趋势。 三是人群分布:是否具有年龄、性别、职业特点。 爆发(。utbreak):在一个局部地区或集体单位中,短时间内突然出现 很多相 同的病人(相同传染源、途径,在一个最长潜伏期内)。 维表: 1、时间维(时间编号,年,月,日,上午,卜午) 2、人口情况维(门诊编号,人口数,儿童数) 3、病例维(庆病编且,病名,疾病状态,职业,住址,户籍,年龄) 4、地域维(地区蜿且,单位名称,所属区县,单位地址,联系电话) 事实表: 流行病发病情况(时间编号,门诊编号,疾病编号,地区编号,报告 时一间, 发病时间) .接种情况主题元数据 目前计划免疫常使用按疫苗的收费情况划分,即一类苗和二类苗。一 类苗国 家承担费用,二类苗家长个人选择。目前的一二类情况如下 第一类:计划免疫疫苗,包括冻干皮内卡介苗(卡介苗,BCG)、口服脊 髓灰 质炎减毒活疫苗(脊灰疫苗,OPV)、吸附百白破混合制剂(百白破,DPT)及白喉、 破伤风二联类毒素(白破二联,DT)、冻干麻疹减毒活疫苗(麻疹疫苗,刚)、乙 型肝炎疫苗(乙肝疫苗,HBV),免费接种。 第二类:扩大免疫推荐疫苗,包括流行性乙型脑炎疫苗(乙脑疫苗)、A+C群 流行性脑脊髓膜炎多糖疫苗(流脑疫苗)、风疹疫苗、流行性腮腺炎疫 苗(腮腺炎 疫苗)、甲型肝炎疫苗(甲肝疫苗)狂犬疫苗、肺炎疫苗、钩体疫苗、伤 寒疫苗等。 疫苗收费,自愿接种,按说明书接种。 因此设计如下 维表: 1、疫苗维(垄道编,呈,所属系列,名称,归类,注射时间) 2、接种时间维(胜包编且,年,月,日,小时) 3、接种地点维(地区编呈,单位名称,所属区县,单位地址,联系电 话,接 种人) 4、接种人情况维(2』熏编且,姓名,性别,出生年月,所在地区, 户籍年龄) 5、疫苗评价维(关型崛且,厂家,有效时间,保护持久度,价格,适 用人群) 事实表: 接种情况(疫苗编号,时间编号,地区编号,夕L童编号,类型编号, 针次数, 副反应情况,费用) .疾病流行情况主题元数据 传染病的三要素是:传染源、传播途径、易感人群。 控制传染病也从这些方面入手:控制传染源、切断传播途径、保护易感人群。 传染源是指体内有病原体生存、繁殖并能将病原体排出体外的人和动 物。一 般是指被感染的恒温动物。 传播途径指病原体从传染源排出体外,经过一定的传播方式,到达与 侵入新 的易感者的过程。分为四种传播方式: (1)水与食物传播 (2)空气一飞沫传播 (3)虫媒传播病 (4)接触传播 人群易感性即人体对某种传染病免疫力低下或缺乏,不能抵御某种病 原体的 入侵而染病。某种传染病的易感人群占总体人群的比例越高,则这种 传染病越易 于发生和传播,该病流行的可能性越大。也是疫苗重点防控的人群 根据以上,在传播途径不好控制和量化的情况下,重点讨论传染源和 易感者 维表: 1、传染源维(技染返编且,导致疾病名称,监测情况,历史数据) 2、疾病情况维(疚病编且,疾病名称,易感染度,传播速度,当前指 标) 3、免疫情况维(鱼左金呈,免疫名称,人均抗体水平,当前接种率) 4、人群维(人签编且,年龄范围,性别比,所在地区) 5、地区维(地区编且,所属地区,名称,上级编码,级别) 事实表: 流行情况表(传染源编号,疾病编号,免疫编号,入群编号,地区编 号,当 前日期) .疫苗情况主题数据 疫苗的情况复杂,按不同方法有如下划分 按性质划分灭活疫苗、减毒活疫苗、组分疫苗、重组基因工程疫苗 按剂型划分液体疫苗、冻干疫苗 按成分划分普通疫苗、提纯疫苗 按品种划分单价疫苗、多价疫苗 按含吸附剂划分吸附疫苗、非吸附疫苗 按使用方法划分注射用、划痕用、口服用、喷雾用 维表: l、疫苗维(反鱼编呈,疫苗名称,生产日期,有效期,厂家,所属种 类,疫 苗归类) 2、用量维(I生去编且,数量登记,形式,应用领域) 3、库存维(遗侄盏出;,名称,所属门诊,负责人,库存量) 4、冷链维啧昌且编兰;,冷库名,温度记录,单位性质) 事实表: 疫苗情况(疫苗编号,种类编号,冷库编号,器材编号,计划用量, 所创价 值) .人员情况主题: 从事预防医疗的人员也是我们关注的重点,有助于研究医疗人员梯队 的建设 和管理。设计如下: 维表: 1、工作时间维(时间编号,年,月,日) 2、学历维(堂迈编且,学历,毕业时间,学位,授予时间) 3、职称维(胆亚编兰,所属系列,级别,评定时间,聘任时间) 4、专业维(支业编呈,专业名称,专业类别,毕业时间) 5、单位维(皇位监吕;,单位名称,单位类别,单位地址,联系电话) 事实表: 人员(时间编号,学历编号,职称编号,专业编号,单位编号,人员 数量) 4.2接种信息多维数据库逻辑模型的建立 逻辑模型直接反映业务部门的需求,对系统的实施有着重要的指一导 作用,是数 据仓库实施中的重要一环。目前较常用的逻辑模型有第三范式(3NF,即 Th1rd NormalForm)、星型模型(Starsehema)和雪花模型 (SnowflakeSchema)。 第三范式是逻辑模型设计的基础,是规范化的,但由于数据库引擎的 限制,为 了提高系统的响应速度,实际设计时要对逻辑模型进行不规范化处理 (De- Normalize)。在多维数据模型中常采用星型模型或雪花型模型,它 们是非规范化 的,从而减小了数据表之间的连接,提供了优异的查询性能,且易于 理解。本系 统的逻辑模型采用了星型模型,其结构特点是:中心表是一个大的不 含冗余的事 实表 (faettable),周围是一组小的附属表,称为维表 (dimensiontable)。维 表围绕事实表显示在射线上,像星星爆发一样,故称为星型结构。由 儿童预防接种信息管理系统数据仓库的概念模型得出其逻辑模型如 下: 4.3儿童预防接种信息管理系统的OTs设计与实现 在前文中己经提及,数据仓库中数据的提取、校验、清理、转换和传 输是由 DTS工具实现的,即在系统设计时将这些任务定义成DTS包,在系统执行时通过 调用己定义的DTS包来完成相应的任务。DTS包是由DTS对象模型中的各元素组 成,其中包括DTS包对象、方法、属性和集合等。下面简要了解DTS 包及其对象 模型。 4.3.1OTS包与包对象模型 DTS包是一个有组织地连接DTS任务和工作流约束的集合,通过执 行己定义的 DTS包可完成相应的DTS任务。DTS包是根据实际需要建立的,每 个包都是针对特 定任务的工作流对象。创建后的DTS包可保存起来以后运行或者周 期性地重复运 行,或在某个特定的日期或时间执行,从而实现本系统所需的周期性 数据转移。 用DTS包实现数据转换的体系结构如图4一H所示: 由图4一n可见,DTS使用OLEDB或ODBC等接口技术连接数据源和目的。 中的DTS数据泵是一个DTS对象,其任务是在源与目的之间移动或 转换数据,它 驱动数据的导入、导出和转换操作,其执行过程如下:首先在源和目标连接上创 建行集合,然后在源和目的间移动这些行,在复制每一行时,进行转 换操作,并 在转换过程中映射列一级的转换,数据泵处理完最后一行数据后,任 务结束,数 据泵操作终止。儿童预防接种信息管理系统的数据泵行转换操作进程 在儿童预防接种信息管理系统中定义DTS任务时要使用DTS包对象,而在使 用DTS包对象之前,要在VB的引用对话框中选中 MicrosoftDTSPackageObject 35 Library来设置对DTS包对象的引用。儿童预防接种信息管理系统中 用到的DTS包 对象主要有以一卜儿个: 连接(ConneCtion)对象,用来定义源和目标的OLEDB数据提供者。 DTS设计 器中包含了一系列 OLEDB提供者,本文选择 SQLOLEDB提供者建立连接。 任务(Task)对象,用来定义工作项目,本文使用ACtiveX脚本来定义任务。 步骤(St即)对象,定义任务对象执行的次序,本文由ActiveX脚本中定义 的次序决定。 全局变量(Gl。ba1Variable),用于在一个包中的几个不同的ACtiveX脚本间 传递数据或对象,本文中的objpaek雌e、objConneet、objstep、objTask、objpumpTask、 。bjCustTask等均为全局变量。 转换(Transformation)对象,包含了转换源和目标列的信息,使用户 可以从 源连接中选择数据,然后经过指定的数据转换,如修改数据类型、精 度、改变排 列顺序等,再传递到目标连接中去,本文中的objTransform即为转换对象。 4.3.2利用OTS实现异构数据转换 除上述模型中指明的对象外,儿童预防接种信息管理系统还要用到 DTS提供 的属性、方法和集合,系统正是利用这些元素进行编程来实现将数据 从一个OLEDB 36 源拷贝到另一个OLEDB源的。另外,DTS还提供了一个完整的COM 方法集,提供 了一组OLE自动兼容的接日,儿童预防接种信息管理系统充分利用 这些接日,编 写了用户导入/导出和数据转换程序,实现了异构数据的转换。通过 编程方式,本 文还访问了系统中己定义的DTS任务,编程语言使用了系统开发能力极强的VISual Basie。 下面是将疾病报告表中的疾病编号、疾病名称、所属区县、发病人、 发病时 间等拷贝到数据仓库的课题立方中去的部分VB代码。 PublicSubMain() , CoPyktsq„kilD, kt.lames,芍ly, sqr, cgxstoDTS一E„ kt. objPaekageAsDTS.PaekageZ objConneetAsDTS.ConneetionZ objstePAsDTS.StePZ objTaskAsDTS.Task lmlmlmlm.... DDDD objPumPTaskAsDTS.DataPumPTaskZ objCustTaskAsDTSConeurrentsamPle.ShoWGlobal objTransformAsDTS.TransformationZ objLookUPAsDTS.LookuP objTranseriPtAsDTSPump.DTSTransformseriPtProPertiesZ sVBS AsString’ VBSeriPttext DD SetobjPaekage二 NewDTS.Paekage objPaekage.FailonError二True objPaekage.LogFileN e二“C八Temp\TestConeurrent.Log“ ’将数据源和目的进行连接 37 SetobJConneCt二。bjPaCkage.ConneCtionS.New(”SQLOLEDB,1 “ WithobjConneetl .Datasouree=“(loeal)” UseTrustedConneetion二True EndWith ObjPaekage.Conneetions.AddobJConneet Set With ob」Conneet二objPaekage.Conneetions.New(”SQLOLEDB.l“ objConneet .ID=2 .Datasouree“(loeal)” .UseTrustedConneetion二True EndWith objPaekage.Conneetions.AddobjConneet 建立复制步骤和任务,并将步骤连接到任务中去 SetobjsteP二obJPaekage.StePs.New obJStep.Najne二”ktsstep” objTask=objPaekage.Tasks.New(“DTSDataPumpTask”) objPumPTask二objTask.CustomTask 十L十Lee?己dC objPumpTask.Name二“ktsTask” obJStep.TaskNajne二objPumpTask.Najne obJSteP.ExeeutelnMainThread=False obJPaekage.StePs.AddobjsteP ’连接复制任务 38 W1thobjPumPTask .SoureeConneetionID1 .SoureeSQLStatement” SELECTktsnajne,zylyID,sqrID“&” FROMktsq“ .DestinationConneetionID=2 .DestinationobjectNe=”〔DTS_UE」.〔mdb〕.〔ktsq]’ .UseFastLoadFalse Max1mumErrorCount99 EndWith 查找申请人或专业领域 Set With objLookUp二objPumpTask.Lookups.New(I’zy1yLU,,) objLookUp .ConneetionID二1 .MaxCaeheRows二0 EndWith objPumpTask.LookuPs.AddobJLookUP Set With objLookUp=objPumpTask.Lookups.New(“SqrLU,,) objLookUP .ConneetionID=1 Query=” SELECTSbdwNameFROMktsq“&“讯」 ERESqrID二? “ MaxCaeheRows=0 EndWith objPumPTask.LookuPs.AddobjLookUp 39 创建并初始化行数及全局变量的设定 objPaekage.Globa1Variables.AddGlobalVariable“ CopyComplete“, False objPaekage.Globa1Variables.AddGlobalVariable” RowsCopied”,0 objPaekage.ExPlieitGloba1Variables二True 创建行拷贝的转换 SetobjTransform二objPumpTask.Transformations. New(”DTSPump.DataPumpTransformSCript”) WithobjTransform .Name二“CopyKtsqName“ TransformPhases二 DTSTransformPhaseTransform+ DTSTransformPhase_OnPumPComPlete SetobJTranseriPt二.Transformserver EndWith WithobjTranseriPt .FunetionEntry二“CopyColumns“ .PumpCompleteFunetionEntry=”PumpComplete“ .Language二”VBSeript“ sVBS=” optionExplieit“&vbCrLf sVBS二SVBS&” FunCtionCopyColumnS()”&vbCrLf sVBS=SVBS&”DTSDestination(,,”KtsName““)=DTSSouree(””KtsName““)”& vbCrLf sVBS二sVBS&“DTSDestination(””ZylyNajne““)二 4O DTSLookupS(”“ZylyLU,,“).ExeCute(DTSSource(””ZylyID”“))“&vbCrLf sVBS二sVBS&”DTSDestinatlon(,,”SbdWN脚e,,”)= DTSLookups(“”SqrLU’,“).Exeeute(DTSSouree(,’“SqrID““).Value)”&vbCrLf sVBS=sVBS&”DTSGloba1Variables(”“ RowsCopied,,“)= CLng(DTSTransformPhaselnfo.CurrentsoureeRow)“及vbCrLf sVBS=sVBS&”CopyColumns=DTSTransformstat_OK”&vbCrLf sVBS=sVBS&刀 EndFunetion”&vbCrLf sVBS二SVBS&” FunetionPumpComplete()”&vbCrLf sVBS=svBS&“DTSGloba1Variables(,,” CopyComplete”“)二True“&vbCrLf sVBS=sVBS&“PumpComplete二DTSTransformstat_OK“&vbCrLf sVBS二sVBS&分 EndFunetion刀&vbCrLf .Text二sVBS EndWith objPumPTask.Transformations.AddobjTransform objPaekage.Tasks.AddobjTask 创建监视步骤,并将该步骤连接到任务中去 Setobjstep=objPaekage.Steps.New objstep.Najne=“GVMonitorstep” SetobjTask=objPaekage.Tasks.New(“DTSConeurrentsajnple.ShowG lobal“) objTask.Name二”GVMonitorTask“ objsteP.TaskNajne二objTask.Najne SetobjCustTask=objTask.CustomTask 41 objCustTask.GVMonitor二“ RowsCopied” objCustTask.GVFinish二” CopyComplete” obJSteP.ExeeutelnMainThread=True objPaekage.StePs.AddobJSteP 将监视任务连接到包上,并运行包 objPaekage.Tasks.AddobjTask obJPaekage.Exeeute EndSub 本系统使用了编程的方法完成了数据仓库中数据的提取、校验、清理、 转换和传输,即提高了系统的自动化程度,也提高了系统的执行速度。 第五章儿童预防接种信息管理系统的OLAP设计与实现 第四章主要论述了儿童预防接种信息管理系统数据仓库模型的建立, 本章将 具体研究如何设计并实现该系统的数据立方以及如何分析立方中的 数据并发现知 识。本系统的OLAP分析是从卫生局决策者的角度对数据进行分析与 运算,这里的 “角度”就是OLAP立方中的维。OLAP数据库的层次结构非常关键, 如果一个多维 数据库的层次结构设计不好,就会增加维的数目,从而增加存储空间, 延长查询 时间。所以,合理设计OLAP的维及其层次是OLAP数据库设计的重要任务之一。 为便于维的设计,有必要先对儿童预防接种信息管理系统的数据源进 行了解。 5.1儿童预防接种信息管理系统数据源简介 济南市儿童预防接种所提供的数据源中数据库文件及其结构如下: 表汇总: 数据源中的文本文件主要有儿童预防接种的接种监测、疾病监测,管 理制度. 门诊监测,各单位的情况,硬件设备等相关信息。 5.2儿童预防接种信息管理系统的OLAp设计 儿童预防接种信息管理系统OLAP立方中的数据是根据维中的信息来 组织和分 组的,因此在创建数据立方之前,必须首先创建用来组织数据的维。 本文‘首先对 常规维进行设计。 儿童预防接种信息管理系统OLAp常规维的设计 常规维有共享维 (Shareddimensi。n)和私有维 (privatedimension)两类。 被两个或两个以上的立方共同拥有的维称为共享维,只在一个立方中 使用的维称 为私有维。共享维在 AnalysisServices启动时,自动载入内存,供各立方共用, 从而加快查询的反应速度;而且,维的一致性越高,越有可能被多个 立方共用: 共享维可以有效地利用内存、节省处理时间和开发时间。因此,本系 统将两个或 多个立方中具有相同信息的维都设计成共享维。 JL童预防接种信息管理系统OLAp维层次及类的设计 MicrosoftOLAPServices维一般都包含着层次关系,每个层次包含 一个或多 个维成员,多个层次中的维成员排列成多个层次,成员的这种层次结 构称为概念 分层,它为实现将低层概念映射到高层概念提供了方法,也为数据的 上卷、下钻 操作提供了基础。 实现多维数据操作的另一种方法是使用维内元素的“类”,即按一定 的标准对 维成员的全集进行划分。从集合论的角度来讲,将维的全体成员设为 一个全集, 类就是该全集的一个划分,划分后的子集具有下述特点:所有子集均 互不相交, 但其和等于全集。对应类的一个属性,就有对维成员的一个划分,类 属性不同, 得到的划分也不同。如接种人员按职称划分为高级职称、副高级职称、 中级职称、 初级职称;按学位划分为博十、硕十、学位、无学位;按性别划分为男、 女等。 层次和类是两个不同的概念:层次是有父子关系的,维的层次越高, 粒度就 越大,其子成员就越多。在一个层次结构中,维的层数越多,粒度层 次就越丰富。 46 类则是对维成员按某一属性进行的划分,成员之间不存在父子关系, 只反映成员 的共同特征,这个共同特征是由类属性的划分标准来表达的。 在儿童预防接种信息管理系统的多维数据分析中,既有按维的层次关 系进行 的分析,也有按维成员的类进行的分析。在维的层次关系上进行的分 析主要有两 种:一种是从维的低层次到高层次的数据综合,或称聚集分析;另一种 是从维的 高层次到低层次地数据钻取分析,这两种分析都是跨越维层次的分 析。按照维成 员的类进行的分析也有两种:分类与归纳,分类是由粗粒度成员向细 粒度成员进 行的下探,归纳则是由细粒度成员向粗粒度成员进行的汇总。因此, 儿童预防接 种信息管理系统的数据分析既有在维的层次关系上进行的,又有在维 成员的类别 上进行的。 但是,为降低系统分析的复杂性、减少存储空间的占用,本系统维的 层次结 构尽量简单。因为,维的层次结构越复杂,所需的存储空间越多,查 询中的引用 也复杂,从而在聚集时引起数据爆炸。综合考虑各个方面,本系统的 维层次及分 类设计如下。 时间维的层次结构 全部(All)成员:l year成员:30 month成员:12 day成员:引 门门诊维的层次结构构 全全部(All)成员 :111 示示范化成员 :8000 规规范化成员 :13000 年龄维、批准经费额度、使用经费额度等维的成员值均为数值型,取 值较多。 为便于统计、易于理解,现对这些维进行离散化,即数字概化,从而 节省存储空 间。 儿童预防接种信息管理系统的粒度设计 粒度是数据仓库中数据综合程度的度量,细粒度的数据可让Analysis ServiceS挖掘出更有意义、更有价值的信息,但是,粒度越细,存放 数据所需的 空间也就越大、查询响应的时间也就越长。儿童预防接种信息管理系 统数据仓库 中的绝大多数查询都是基于一定程度的综合数据之上的,只有少数查 询涉及到细 节,为了兼顾细节查询和快速响应的要求,该系统对数据进行了不同 程度的聚合, 将聚合后的数据按MOLAP结构存储于数据立方中,而叶子级的数据 则仍存放在OLTP 数据库中,从而形成了一个多重粒度的数据组织结构。 49 5.2.4儿童预防接种信息管理系统的分区设计 由于分区后的查询只需访问相关数据所在的分区,不需对整个数据仓 库进行 访问,从而改善了多维数据仓库的查询性能和加载性能。分区后的多 维数据可使 多个用户同时加载各自对应的分区而互不影响,并可独立添加或丢弃 另外的分区, 提高了系统的并行性。所以在设计数据仓库时均考虑对数据进行分 区。 虽然分析服务对多维数据集中分区的数量没有实际限制,但当分区很 多时, 从多个分区合并结果集的开销将明显增加。儿童预防接种信息管理系 统将每一万 行事实数据作为一个分区,若分区超过一万行时,则将粒度进行细化, 如:开始 数据较少时,采用年作为数据立方的粒度,当一个分区中数据量超过 一万行时, 采用月作为数据立方的粒度,依次类推。因为该数据仓库中许多查询 都集中在最 近的时期内,所以用时间作为第一分区矢量。使用多维数据集填充应 用程序周期 性地从数据源中加载数据,从而使各分区中的数据均随时间的推移自 动加载和维 护。 5.2.5儿童预防接种信息管理系统聚集设计 利用 SQLServer2000平台设计的儿童预防接种信息管理系统的OLAP,能预 先在独立的区域中进行汇总并存储聚集数据,能高效地表示聚集数 据,这两项功 能减轻了大型查询和迅速聚集对数据仓库和OLTP数据源产生的负 载,同时降低了 即时查询所需处理的数据量和查询时间。 设计儿童预防接种信息管理系统时,聚集程度也是要考虑的重要因 素,因为 聚集程度越高,查询所需的时间越少,但由于聚集时所需的存储空间 将以指数形 式增长,聚集程度过高,就会产生“数据爆炸”现象。为避免出现“数 据爆炸” 现象,本系统的初始聚集设计的很小,然后根据需要使用优化向导逐 步增加聚集 的数量。实现方法如卜: 首先选择 Too15{DesignStorage打开存储向导,为立方体选择数据存储方 式,根据前面所述,此处选择MOLAP存储方式。接着选择性能,告诉 OLAPServiCeS 本系统优先考虑存储,然后让它为立方体选择聚集。为避免出现“数 据爆炸”现 象,首先选择使用O聚集,然后迭代地使用 UsageOPtimization对 基于典型用户 活动的一些会话来创建聚集。 5.3儿童预防接种信息管理系统的OLAP分析设计与实现 儿童预防接种信息管理系统的OLAp分析 儿童预防接种信息管理系统利用MDX多维表达式对数据仓库中的数据进行组 织与汇总。当决策管理人员搜寻答案或试探可能性时,在得到对历史 数据查询的 回答后,经常需要执行进一步地查询,MDX语言为研究复杂的业务数据关系提供了 强大的功能。在 OLAPServiceS中,所有分析都可通过MDX语言进行查询和表达, MDX是微软 AnalysisServices专用的多维查询语言,它提供了许多工 具来支持查 询中的复杂分析,其函数可以在任何有效的MDX语句中使用,并可用于查询、计 算成员以及自定义汇总,本系统使用MDX作为查询分析语言,快速灵活地为决策 管理人员提供实时支持。 MDX查询的结果也是立方体,称为结果立方体,MDX查询就是将待查询的数据 立方体转化为结果立方体的过程。为便于区别,结果立方体用轴代替 数据立方体 中的维,轴的编号从0开始,依次增加,最多可为64。在MDX查询中,必须指定 被查询的数据立方的维与结果立方的轴之间的对应关系,为了便于在 概念上与典 型的打印报告一致,结果立方的前三个轴分别取名为“列”、“行”和 “页”,且顺 序是固定的。MDx的每个查询至少具有SELECT.二FROM.二WHERE这一结构,并在 SELECT子句中指明轴与维的对应关系。 5.3.2接种信息分析数学模型的建立 如前所述,接种信息数据仓库中己建立了疾病发病立方、接种立方、 疾病流行 立方、疫苗立方、人员立方(recognize)等。根据决策者的实际需求,有时需进 行人才分析,如查询各类职称的人数、各类学历的人数、各年龄段的 人数、各专 业人才的人数、各研究方向的人才数量、各类单位拥有的人才数量等, 有时还需 要对人才进行综合查询。 还要分析各种疾病的各种概率,疫苗的使用情况,门诊的报病情况 综上所述,下面给出分析所需的部分数学模型 发病率 (ineideneerate): 表示在一定期间内,一定人群中某病新病例出现的频率。 分子:一定期问内的新发病人数。 分母:指可能会发生该病的人数。 应用 用作描述疾病分布 探讨病因 评价防治措施效果 注意 发病率的准确度受很多因素影响 不同地区、人群发病率的比较要标化 发病率=一定期间内某人群中某病新病例数 同期暴露人口数x厂 催患率 (attaekrate): 在某一局限范围,短时间内的发病率。 适用:局部地区疾病的爆发,食物中毒、传染病及职业中毒等爆发流 行 优点:根据暴露程度精确测量发病几率 患病率 (prevaleneerate) 某特定时间内总人口中某病新旧病例所占比例。 按观察时间分为:期间患病率和时点患病率 发病密度 (ineideneedensityIn) 某病在一定时间内新发病例数占该动态人群的比例。 以‘,)=l一exP[ID(,)./] 死亡率 (mortalityrate) 表示在一定期间内,在一定人群中,死于某病(或死于所有原因)的频 测量人群死亡危险最常用的指标。 夕七亡率=某期间内(因某病)死亡总数 同期平均人口数x尤 应用 用于衡量某一时期,一个地区人群死亡危险性大小的指标 反映一个地区不同时期人群的健康状况和卫生保健工作的水平 为该地区卫生保健工作的需求和规划提供科学依据 探讨病因和评价防治措施 病死率 (fatalityrate) 表示一定时期内(通常为1年),患某病的全部病人中因该病死亡者的 比例。 若某病处于稳定状态时,病死率可由死亡率和发病率推算 病死率某时间内因某病死亡人数 同期患某病的病人数 x100% 应用 表示某确诊疾病的死亡概率,衡量其对生命威胁的程度 可表明该疾病的严重程度 反映医疗水平和诊断能力 通常多用于急性传染病,较少用于慢性病 生存率 (survivalrate) 是指接受某种治疗的病人或患某病的人中,经若干年随访(通常为1、 3、5年) 后,尚存活的病人数所占的比例。 应用: 反映了疾病对生命的危害程度 用于评价某些病程较长疾病的远期疗效 在某些慢性病(如肿瘤、心血管疾病)的研究中常常应用 潜在减寿年数 (potentialyearsoflifel。st,PYLL) 指某病某年龄组人群死亡者的期望寿命与实际死亡年龄之差的总和。 即死亡 所造成的寿命损失。 疾病负担测量的一个直接指标 人群健康水平的一个重要指标 报表统计与统计分析中统一遵循的统计规则如下: 53 月应种人数二本月受种人数之和十本月最后一天的符合接种要求但 未接种 的人数。 小于12月龄的月应种人数=本月小于12月龄的受种人数之和十本月 最后 一天符合接种要求但未接种的小于12月龄人数。 双月应种人数=第一个月的受种人数之和+第二个月的应种人数。 小于12月龄的双月应种人数二第一个月的小于12月龄的受种人数之和十 第二个月小于12月龄的应种人数。 季应种人数=第一、二个月的受种人数之和十第二个月的应种人数。 小于12月龄的季应种人数=第一、二个月的小于12月龄的受种人数之和+ 第三个月的小于12月龄的应种人数。 年应种人数=本年从l到n月份的受种人数之和+本年12月份的应种 人 数。 小于12月龄的年应种人数=本年从l到n月份的小于12月龄的受种人数 之和十12月份的小于12月龄的应种人数。 小于12月龄:直到统计当天,不满1周岁的儿童 儿童类型:本地儿童是指建档县为本地的儿童;流动儿童是指建档县不为本 地,而接种县为本地的儿童。 受种人数二在统计时间段内本地区该疫苗剂次的总接种人数。 接种率二(受种人数/应种人数 )X100% 加强免疫应种人数:按照国家免疫程序规定的免疫时间统计的应种人 数(只 统计规定的年龄)。 统计报表中统计疫苗的合格情况时,疫苗接种的合格条件如下: 乙肝疫苗 没有起始月龄 第一剂与第二剂间隔时间)28天 第二剂与第三剂间隔)60天 第一剂与第三剂间隔多6个月 所有的剂次必须在12月龄内完成 首剂及时:接种时间一出生时间蕊1天 卡介苗 没有起始月龄 55 必须在12月内完成 脊灰疫苗 第一剂起始月龄)2个月 第二剂与第一剂间隔时间)28天 第三剂与第二剂间隔多28天 所有的剂次必须在12月龄内完成 加强免疫在4岁一7岁内完成 麻疹 起始月龄)8个月 必须在12月龄内完成 加强免疫在满18月龄一7岁内完成 百白破 第一剂起始月龄)3个月 第二剂与第一剂间隔时间)28天 第三剂与第二剂间隔)28天 所有的剂次必须在12月龄内完成 加强免疫在满lS月龄一7岁内完成 乙脑 第一剂起始月龄)8个月 第二剂与第一剂间隔时间7一10天 加强免疫第一剂在lS个月龄一7岁内完成 加强免疫第二剂在6岁一7岁内完成 流脑 第一剂起始月龄)6个月 56 第二剂与第一剂间隔时间)3月 加强免疫第一剂在3岁一7岁内完成 加强免疫第二剂在6岁一7岁内完成 5.3.3用MOX语言实现数据分析 上面已给出了系统分析所需的数学模型,下面给出实现上述分析的部 分MDx 代码。 在拥有人员中,分析高级和副高级职称人员所占的比例: WITHMEMBER[MeasureS」 .[ratioofthetitleofateehniCalpostin al1harvest〕 AS‘([Measures」.〔Cgjs」,[talent].[zC〕)/Count([All harvest〕.members)’ SELECT {[Measures〕. ratioofthetitleofateehnicalpostinall harvest〕 }oncolumns {[talent〕.[zC〕.MemberS} FROMharvest OnrOWS WHERE[talent」.[ze〕 查询各系列职称人数及所占的比率: WITHMEMBER[Measures].[zrs〕 AS‘ Count([Al1talent」.MemberS,ExCludeEmPty)’ MEMBER[Measures〕 .[talentXLratio」AS‘[Measures」 .[thetitle ofateehniealpost〕‘[XL〕/[Measures].[Zrs〕’ SELECT {[Measures」.[rySI」,[ze」.[Ze一XL〕, [Measures].[talentXLratio」} oneolulnns {[ze〕.[ze一 jbj}onrows FROMtalenteube WHERE[time」.[2003〕 57 查询今年各类学历的人数,代码如下: SELECT{[MeasureS」.〔rySI」}。nc。lumns {[XL〕.〔 XLlb]}onrows FROMtalenteube WHERE〔 t1me〕.[year」.Current 查询各年龄段的人数及所占的比率: WITHMember仁MeasureS」.「Age」AS‘〔year〕.CurrentMember一〔Age〕. [birth_year」’ SELECT{〔MeasureS〕.[Age」}。ne。lumns {「Age」 .[birth_year].Members}onrows FROMtalenteube 接种人数最多的前20个门诊: TopCount([gain」.members,20,〔MeasureS」.[CgxS]) 统计上年度类疫苗的数量所创价值: WITHMEMBER[MeasureS〕 .[numberofharvest] AS‘Sum(〔egxs」 .[Al1cgxs」)’ MEMBER[Measures],〔 prieeofharvestcreated〕AS ‘sum([Scjz〕 .[AllsCj幻) SELECT {[MeasureS〕 .[numberofharvest」,[MeasureS〕 .[priceofharvest ereated〕 }oneolumns {〔harvest〕.〔 zyly]}onrows FROMExtendCube WHERE([time」.〔year」.currentmember一1) 将2006年各门诊报告病例数按降序排列: Order([harvest〕.members,(〔MeasureS〕.[tges〕,〔time〕.〔2006〕, [harvestj. [yyl丫〕),BDESC) 查询报告疾病最多的三个单位: TopCount(〔All Harvest〕.MemberS,3,([talent」.[szdw〕.[dwlb〕,[Measures」.[egjs〕)) 58 第六章儿童预防接种信息管理系统的接口设计 由儿童预防接种信息管理系统数据仓库的体系结构可见,本系统 Analysis ServiceS的两个主要组成部分是 AnalysiSServiCeS服务器和客户端。前面己对 儿童预防接种信息管理系统的 AnalysiSServiCeS服务器进行了详细设计,为了 进行儿童预防接种信息管理系统客户端的接口设计,下面首先研究 OLAP客户端的 体系结构。 6.1儿童预防接种信息管理系统OLAp客户端的体系结构 儿童预防接种信息管理系统客户端体系结构的核心是数据透视表服 务 (PivotTableServiCes),它是连接AnalysiS服务器和用户的桥梁,用户通过接口 访问数据透视表,数据透视表又可直接访问AnalysiS服务器。本系统 使用数据透 视表服务在线访问OLAP数据和数据挖掘模型、在线分析并进行数据 预测。通过使 用数据透视表服务的缓存管理功能,本系统还能对缓存中的数据进行 离线分析。 由图可见,儿童预防接种信息管理系统的数据透视表服务是实现将 OLAP立方 从OLAP服务器传递到客户端应用程序的工具,它向开发者提供了两 个查询OLAP 数据源的接口:一个是直接为OLAP服务的OLEDB接口,另一个是建立在OLEDB 之上的ActiveX多维数据对象 (ADOMD)接口。 OLEDB接口直接与数据透视表服 务相连接,适于采用VC语言编程访问,ADOMD是对OLEDB的封装,适于采用VB 语言编程访问。由于采用VB语言编程访问 ADOMD接口可降低程序的复杂性,本 系统选用了 VisualBasic6.0对ADOMD接日进行访问,并配合MDX 语言对立方 中的数据进行查询或聚集。因为ADOMD是适于访问多维数据的接口,而MDX是专 门用来查询多维数据源的语言,因而在分析数据时,儿童预防接种信 息管理系统 中的各组件无缝地工作在一起,兼容性极好。 因为要对接口进行编程,下面对接口进行探究。 6.2儿童预防接种信息管理系统的数据访问接口 虽然 OLEDB接口 (objeetLinkingEmbeddingnataBase)提供了与数据库 服务器无关的通用数据访问(UDA)手段,但它是一个底层的数据访问 接口,访问方 法较为复杂。ADO是基于OLEDB技术之上的另一接口,它是对OLEDB的一个高层 封装,通过ADO接口访问数据时,速度快、内存支出少、磁盘遗迹 小,且可访问 不同类型的数据源,使用方法简单,在实用中得到了很高的评价。 为了访问多维数据,微软对ADO进行了改进,推出了适用于多维数 据访问的 ADOMD接口。该接口除具有ADO接口的所有优点外,还具有易于 管理多维数据的 特点:便于浏览多维数据模型、易于查询多维立方体等。为便于进行 多维操作, ADOMD的对象模型中包含了专门针对多维数据的对象,其对象模 型与ADO对象模 型有很大区别。为便于使用 ADOMD编程,一卜面给出 ADOMD的 对象模型。 从该对象模型中可以看出多维数据模型中的立方体、维、层次、级别 及成员 之间的关系,以及结果集与坐标轴之间的关系。 从图中还可看出,ADOMD提供了多个集合,用来存放(包含)同一个类的对 象。如AxeS集合用来包含AxiS对象,CubeDefS用来包含CubeDef对象,Dimensi。ns 集合用来包含Dimensi。n对象等。 通过 ADOMD接口中集合的属性和方法,可以实现相应的操作。如: ActiveConneetion属性用来指示当前单元集或目录当前属于哪个 ADOConnection 对象,Caption属性用来指示显示Level或Member Ch11dCount属性用来指示在分级结构中当前Member 充分利用 问的全部功能, ADOMD的对?象、集合、方法和属性, 对象时所使用的文本标题, 对象的子成员数目等。 可实现对 ADOMD接口访 下面编程具体实现接口的访问。 6.3儿童预防接种信息管理系统的接口设计 为实现更好的灵活性,儿童预防接种信息管理系统采用VB编程语言和MDx查 询语言相配合的方法对接口进行编程设计,即采用 VISualBasic作为客户端开发 工具,使用ADOMD访问多维数据集,使用MDX查询语言对数据立方进行查询。为 从立方中获取数据,采用了将MDX串传递给ADOMD的 Ce11Set对象的Source属 性的方法。在进行查询前,首先使用 ActiveConneCtion属性连接到本地的数据 立方,建立ADOMD的连接,被连接的数据立方存放在C八kjglj\jzxi\。laP\data\ 目录下,立方名为jzxi.cube(接种信息立方),服务器名为myserver,数据存储 模式为MOLAP。建立连接后,使用 ADOMD中的Cellset打开多维数据集。下面是 针对 ADOMD接口操作的部分代码,其功能是首先扫一印立方中每 个维的名称,接着 显示每行或每列的表头成员标题,然后显示各单元集格式化的值。程 序代码如下: PrivateSubcmdCellsettoDebugwindo礼Click() 先定义程序中要用到的各变量 eatAsNewADOMD.Catalog edfAsNewADOMD.CubeDef estAsNewADOMD.Cellset AsInteger AsInteger strserverAsString strsoureeAsString strColumnHeaderAsString strRowTextAsString *若出错,调用出错处理程序 OnErrorGoToError_emdCellsettoDebugwindotCliek Sereen.MousePointer=vbHourglass *设置服务器为本地主机 strserver二“myserver“ *设置MDX查询字符串 strsouree二strsouree&,, SELECT,, Strsouree=StrsourCe&“{[MeasureS〕 .members}ONCOLUMNS strsouree=strsouree& ,, NONEMPTY[22].〔 zzxl].membersONROWS” strsouree=strsouree&“ FROMjzxi” *建立动态连接 63eat.AetiveConneetion二 朋 DataSouree二尸&strserver& 万:Provider二msolap:” est.Souree二strsouree *创建ADOMD对象,并设置动态连接至当前的单元集’ est二 NewADOMD.Cellset edf=NewADOMD.CubDef est.AetiveConneetion=eat.AetiveConneetion *打开当前连接的单元集 est.OPen *打印立方中每个维的名称’ Fori=0Toedf.Dimensions.Couzlt一l Debug.Printedf.Dimensions(i).Na!ne NeXt *显示每行或每列的表头成员标题,然后显示各单元集格式化的值’ strColumnHeader=vbTab&vbTab&vbTab&vbTab&vbTab&vbTab 二 0Toest.Axes(0).Positions.Count一l strColumnHeader二strColumnHeader& est.Axes(O).Positions(i).Member。(0).Capti。n&vbTab& vbTab&vbTab&vbTab Debug.PrintvbTab&strColumnHeader&vbCrLf strRowText二# Forj二 0Toest.Axes(1).Positions.Count一l strRowText二strRowText& 。St.AxeS(l).Positions(j).Meobers(0).Caption&vbTab&_ vbTab&vbTab&vbTab 0Toest.Axes(0).Positions.Count strRowText=strRowText&est(k,j).Formattedvalue&_ vbTab&vbTab&vbTab&vbTab eXFo Debug.PrintstrRowText&vbCrLf StrRowText= Next Sereen.MousePointer二vbDefault ExitSub Error_emdCcllsettoDebugwindotCliek: BeeP Sereen.MousePointer=vbDefault MsgBox“ TheFollowingErrorhasoeeurred:”&vbCrLf& Err.Deseription,vbCritieal,”Error!’ ExitSub EndSub *清除无用对象,释放内存空间,避免内存泄露 seteat=Nothing setedf=Nothing setcs拼Nothing 第七章儿童预防接种信息管理系统的优化与维护 在儿童预防接种信息管理系统的运行过程中,数据量将会与日俱增, 其性能、 安全性、可靠性都会受到来自各方面的挑战,如性能变差、系统遭遇 非法攻击等, 这些情况若得不到及时解决,随时可能造成灾难性的后果。系统优化 的目的是通 过将网络流量、磁盘工/O和CPU时间等减到最小,从而缩短每个查询的响应。为 达此目的,需要在相互冲突的要求之间进行平衡,尽量在不增加硬件 投入的前提 下提高系统的性能。在 SQLServer中,尽管可以手动配置和调整一些Sp_Configure 选项,但因为 SQLServer的数据库服务器能自动动态地调整,实现数据库引擎的 自行优化,所以一般不对系统进行手动优化。 系统性能的优化 儿童预防接种信息管理系统数据仓库的数据量大,占用的存储空间 多,进行 分析时所需时间长。所以需要对系统性能进行优化,从而减少存储空 间的占用、 缩短处理时间、减少实时查询的执行时间。本文从数据索引的优化、 查询速度的 提高、数据立方的优化、硬盘的配置和提高数据载入速度等方面对系 统进行优化。 索引的优化 要缩短查询时间,建立良好的索引是关键。针对儿童预防接种信息管 理系统 数据仓库的操作主要是读操作,索引做得好,将会大大提高读取数据 的速度和分 析查询的速度。 本系统使用 SQLServer2000中的索引优化向导 (IndexTuningwizard)对 索引进行优化,该向导可以选择和创建优化的索引集,并建议应该创 建的索引。 方法如下:在运行索引优化向一导前,先在 SQLServerProfiler中建立一个新跟 踪,用来捕获默认事件。接着在 SQLserverProfiler中打开 Too1SJIndex Tuningwizard,在下一界面中,单击Next,在确定己登录到 SQLServer上之后, 选择 Addindexviews(增加索引视图),清除 Keepallexistingindexes(保 留所有现有索引)。对于 Tuningmode(调整模式),选择Thorough(完全调整) 进行彻底分析,从而使索引优化向导对查询进行详尽的分析,使所优 化的工作负 荷的性能得到全面提高 。为打开前面运行的跟踪,先选择 SQLServer跟踪表,激 活 ConnecttoSQLServer对话框,从中选择服务器,在’卜一个对 话框中,选择 跟踪表,在“指定工作负荷”页上,在 SPecifyWorkl。ad的高级选项中,设置优 化向导如下:首先去掉默认的查询限制,然后更改 Maximumspaeeforthe recollunended(MB),将推荐的最大存储空间由默认的IMB改为10MB。下一个屏幕提 供了可以优化的表,对经常使用的表运行该向导,然后单击Next, sQLserver2000 就开始处理数据了。处理完毕,屏幕上显示了一个建议的索引列表, 接着在最后 一个页面中执行上述建议,即按向导分析的最优方式进行了索引优 化。 另外, SQLServer2000中的索引有聚集索引和非聚集索引两种类 型,使用 SQLServer2000中的 DBCCINDEXDEFRAG语句,去除表或视图上聚集索引和非聚 集索引的碎片,提高索弓!扫描的性能。 再则,由于 SQLServer处理数字比处理文木速度快得多,建立索引 时,外键 的数据类型均采用整型数据。 7.1.2优化 在 SQLServer2000中对儿童预防接种信息管理系统的 AnalysiSServi。es 进行动态优化时,需要做的大多为一些选择,如选择存储模式、选择 聚集程度、 选择分区依据等。 通过对三种存储模式查询性能的比较可明显看出,当需要请示叶子级 数据进 行查询时,响应速度最快的存储模式是MOLAP模式。在4.3,2中己 经说明,为了 节省存储空间,本系统的聚集程度较低,因而在进行决策时需经常查 询叶子级数 据,所以选择MOLAP存储模式。 聚集程度的值越小,聚集程度越差,查询速度越慢,但占用的存储空 间也越 小。相反,聚集程度的值越大,聚集程度越高,查询速度就越快,但 占用的空间 也就越大,查询的灵活性也就越差。为节省存储空间,并提高查询的 灵活性,本 系统的聚集程度选择为40ry0。 分区是数据仓库设计中的重要环节,好的分区一ti]’大大提高系统的分析速度, 根据5.2.4节分析,选择系统的第一分区矢量为时间。 68 7.1.3儿童预防接种信息管理系统的查询优化 由于儿童预防接种信息管理系统的数据量较大,全表扫描一次需要较 长时问, 为减少查询时间,需对查询策略进行优化。 儿童预防接种信息管理系统查询优化的重点是减少数据库服务器每 次查询时 从磁盘中读取的数据量,并在读取过程中采用顺序读灭。为减少数据 库服务器从 磁盘中读取的数据量,本系统采用了临时表,将查询中需要反复访问 的数据作为 一个子集,放在按主键排序的临时文件中,因临时文件中的行比主表 中的少得多, 且物理顺序就是所要求的顺序,减少了磁盘1/0操作,提高了读取速度。 SQLServer2000在查询语句中遇到通配符时,要临时确定目标表中包含的字 段,延长查询时间。为了提高查询速度,本系统在查询时未使用通配 符。 7.1.4儿童预防接种信息管理系统数据立方的优化 儿童预防接种信息管理系统数据立方架构的好坏,将直接影响系统占 用空间 的大小、查询速度的快慢。在设计本系统的数据立方时,我从维的层 数、维的数 量、成员关键字等方面进行了综合考虑。 首先,在设计系统立方时,减少了维中不必要的层次,节省了存储空 间,客 户机和服务器上所需的工作内存也跟着减少,处理立方、更新维或更 新立方所需 的时间也相应减少。其次,减少了不必要的维,从而减少了立方的规 模,节省了 存储空间,进而减少了聚合所需的时间和空间。再则,较多地使用了 短整型类型 的成员关键字,也减少了存储空间的占用,提高了查询速度。 儿童预防接种信息管理系统度量值的类型也是要考虑的重要因素之 一,因为 在包含数百万行的事实数据表中,即使每条记录节省两个字节,合起 来也能显著 减少表的大小以及处理表所需的时间。本系统确定度量值类型的原则 是,在足够 包含汇总值的前提下,尽量使用与度量值数据一致的最小数据类型。 7, 1.5儿童预防接种信息管理系统中的硬盘优化 硬盘的驱动结构都是机械部件,与电子器件相比,运行速度极慢,已 成为计 算机系统中最大的瓶颈。硬盘的优化即提高硬盘的读写速度、容量、 容错能力、 自恢复能力等。为达此目的,本系统采用了 RAID(RedundantArray。fndependentDrives),即冗余独立磁盘阵列,它能提供重要的数据冗 余,防止硬 盘失败,且在容量、成本、速度和容错之间提供了平衡。 因为软件RAID的性能比硬件RAID低,所以儿童预防接种信息管理 系统数据 仓库使用了硬件RAID,且采用了板载缓存机制,从而利用缓存收集 来自 sQLserver 的较小的工/0请求,并排列这些请求,然后将它们与其他1/0请求合成一批较大 的并且有可能是顺序的I/0请求,发送到硬盘驱动器。该机制显著增 强了儿童预 防接种信息管理系统中磁盘子系统的1/0处理能力,产生了更大的工 /0吞吐量。 为达到既高速又安全的目的,本系统的硬盘选用RAID10结构,既保 证了最佳 的容错和读写性能,又具有较大的磁盘容量。 JL童预防接种信息管理系统中数据载入的最优化 加速数据载入有许多技巧和方法,其中包括选择合适的数据库恢复模 型、选 择合适的批量装载方式、建立聚集索引等。 儿童预防接种信息管理系统数据仓库在执行初始数据装载时,选择在 “简单”恢复模型下运行,在增量数据装载时,则选用“大容量日志 记录”恢复模型。因 为,在系统运行过程中执行的操作大多是只读的,数据丢失的一可能 性极小,而大 容量日志记录恢复模型对大规模的复制操作能提供最佳的性能和最 少的日志使用 空间。 批量拷贝的API函数是最受编程人员欢迎的。儿童预防接种信息管理 系统中 选用API函数实现数据的批量拷贝,出于装载失败时数据回滚的需 要,本系统选 择批量拷贝的数据量为1000行。 儿童预防接种信息管理系统通过在表上建立聚集索引的方法解决并 行载入数 据时引起的混杂。建立聚集索引后,数据被读入时按键值的顺序排列, 并顺序写 出,降低了混杂的程度。 7.2儿童预防接种信息管理系统的维护 儿童预防接种信息管理系统的数据仓库在运行过程中需要不间断地 维护,否 则随着数据量的增大,性能会变得越来越差。本系统用 SQLServerAgent实现系统 70 的不间断维护,并具体负责处理重复任务及处理异常错误,如:定时执行作业 监视 SQLServer,在发生错误时激发警报,运行管理员定义的复制任 务等。 7.2.儿童预防接种信息管理系统维护的调度管理 由图7一!可见,儿童预防接种信息管理系统的维护主要由 SQLServerAgent 实现,并通过 SQLServer将对系统维护的定义存储在msdb数据库中。在启动 SQLServerAgent服务时,系统首先查询数据库中的系统表,确定启 用哪些作业和 警报。 SQLServer将所有发生的事件传递给 SQLServer代理程序, SQLServer 代理程序在规定的调度时间执行作业。当出现意外时,也有 sQLserverAgent负责 报警,或向 SQLServer发送SQL邮件请求,或向WindowS发送 netSend命令。 在5.3中已创建了DTS包,并将其保存到 MicrosoftSQLServermsdb数据 库中,存入本地服务器。系统中使用 SQLServer代理调度在DTS设 计器中创建的 DTS包,并将己调度的包作为作业执行,从而实现数据的定时更新。 下面主要探讨 系统维护中的数据备份、日志维护及系统安全性。 7.2.2儿童预防接种信息管理系统数据的备份 为避免意外而导致数据丢失,需要经常对儿童预防接种信息管理系统 数据仓 库中的数据进行备份,常用的备份方式有数据库完全备份、事务日志 备份、差异 数据库备份、文件和文件组备份四种。因事务日志备份只能与完全恢 复模型或大 容量日志记录恢复模型一起使用,而儿童预防接种信息管理系统使用 的是大容量 日志记录恢复模型,所以采用事务日志备份方式。 本系统使用关键字BACKUP和RESTORE对日志进行备份和恢复,使用BACKUP LOG和 RESTORELOG对事务日志进行备份和恢复。如将SAMT数据 库备份到 MySAMTLog下,使用 BACKUPLOGSATMToMySATMLog语句,若 需进行恢复,则使用 RESTORELOGSATMFROMMySATML语句完成。 儿童预防接种信息管理系统日志的维护 在儿童预防接种信息管理系统使用事务日志备份方法对数据进行备 份的过程 中,为了减少日志文件及分发服务器占用的磁盘空间,需对事务日志 进行不间断 地维护,主要包括及时截断不再需要的日志并将日志历史和保持期最 小化。 儿童预防接种信息管理系统的事务日志是对数据库执行的所有事务 的一系列 记录,如不及时删除无用的日志记录,随着事务的执行,逻辑日志就 会一直增长, 直到充满容纳日志文件的所有可用空间。日志的截断应在事务成功提 交后完成, 若备份失败,则恢复事务,日志回滚到原来的状态。为及时截断不再 需要的日志 儿童预防接种信息管理系统按下述方法配置了工作流的属性:同时选中“有事务 时联接”、“成功完成此步骤时提交事务”、“失败时回滚事务”三个复 选框,从而 及时提交事务日志、截断不活动部分,若提交失败,系统则自动回滚。 将儿童预防接种信息管理系统的日志历史和保持期最小化,可减少服 务器上 使用的磁盘空间。本系统使用数据库维护计划向导定义日志生成频 率、备份与还 原操作之间的时间等,从而确定日志的保持期。设置如下:在“复制/装载的频率” 框中将目的服务器从源服务器备份和还原事务日志的频率设为10分钟,维持“装 载延迟”框中的默认值0分钟不变,在“文件保持期”框中指定事务 日志在删除 之前存留的时问为7天,在‘旧志传送闽值”对话框中,设置“备份 警报闭值” 为24小时,从而使距离源服务器上一次事务日志备份时间的最长期 限为24小时, 72 一旦超过此值,监视服务器将生成警报。在“不同步警报闭值”框中, 指定源服 务器上最近一次事务日志备份与目的服务器最近一次事务日志还原 之间的时间间 隔为5分钟,一旦时一间超过此指定闽值,监视服务器也生成警报。 通过这些设置, 使日志历史和保持期在满足需要的情况下维持最小值,从而节省存储 空间。 7.3儿童预防接种信息管理系统的安全性 儿童预防接种信息管理系统数据仓库中保存了与济南市儿童预防接 种门诊和 大量的疾病和儿童信息有关的最有用的机密信息,保证这些信息的安 全,避免非 法人员浏览和修改是系统设计一要考虑的另一重要内容。儿童预防接 种信息管理系 统建立安全机制的过程包括创建用户,将用户加入某个组,然后为这 些组分配角 色等过程,从而给不同组的用户赋一予不同的数据访问权限。 儿童预防接种信息管理系统数据仓库中的数据是面向主题的,在实际 工作中, 每一个主题对应个业务范围,在数据仓库中则对应一个数据立方。为 让不同处 室的人员查询不同的数据立方,采用了将同一处室人员作为一个用户 组的方法, 使同一处室的人员拥有相同的访问权限,不同处室的人员具有不同的 访问权限。 过程如下:首先为所有使用者分别建立用户,接着创建域组来组织用 户。同一门 诊的人员放在同一域组中,不同门诊的人放在不同的域组中。第三步 是在Analysis Services服务器上为每个域组创建一个本地组,然后将域组作为本 地组的惟一成 员。最后将本地组映射到 AnalysiSServiCeS服务器上的数据库的角 色上。创建 了本地组且映射到内部的安全角色后,网络管理员通过增加或删除域 组中的人员 来管理对立方中数据的访问权限。 在儿童预防接种信息管理系统中,成功的注册并不允许用户随意访问 数据仓 库中的所有数据,必须得到网络管理员的许可才能访问。许可的办法 是由网络管 理员为他们创建数据库角色,方法如下:右击 DatabaseRole:图标, 单击Manager RoleS,在出现的数据库角色管理器 (DatabaseRoleManager)界面中 单击New按 钮,新建一个所需的数据库角色。 为了赋予一个数据库角色访问某个(或某组)立方的权限,网络管理员在 Create(或 Edit)aDatabaseRole对话框中,单击CubeS选项卡,选 中那些该角 色可以访问的立方的复选框。在 AnalysiSManager中,右击 CubeRoleS图标, 73 在弹出的菜单中单击ManageR。les,然后单击角色名前的复选框,使此处选中的 角色具有访问刚才选中的立方的权限。 因卫生局的领导要把握全局的接种信息,将他们作为一个用户组,并 为他们选 中所有的数据立方,以便各位领导可访问所有的数据立方。 第八章儿童预防接种信息管理系统评价 本文综合利用了数据仓库技术和OLAP技术,建立了儿童预防接种信息的多维 数据模型,并对其进行了OLAP设计。利用该系统,使领导和专业人 员能对长期积 累的、大量的、繁杂的历史数据进行多角度、多方面的综合分析,从 中挖掘出想 要的知识,为他们的决策服务。为了提高分析查询的速度,本系统采 取了多方面 的优化措施;为使系统长期稳定运行,又对系统的长期维护方案进行 了设计。随 着数据仓库技术和OLAP技术的发展,该系统将会更快速、更有效,做出的决策在 实际工作中将会发挥更为重要的作用。 本课题是济南市儿童预防接种管理信息系统的一部分。在该课题中, 研究了数 据仓库的基本理论,查阅了大量相关资料,并根据数据仓库技术、 OLAP技术的原 理,经过认真的思考和大胆的创新,在反复与儿童预防接种点的同志 们交流的基 础上,形成了本论文。 本课题主要的创新点如下: l、应用领域的突破:前人研究的数据仓库,大都应用在零售店、销售商、企 业产品的管理与销售中,而本系统将数据仓库理论应用到了儿童预防 接种信息中。 到目前为止还未见到与此类似的应用研究。 2、概念模型的突破:以前数据仓库的概念模型大都沿用关系数据库的ER模型, 也有的使用信息包图,但他们都不能很好地反映维度之间的关系。本 文提出了多 维概念模型的概念,将数据的度量值放在概念模型的中央,而概念模 型的四周是 观察这些数据的维度,从而可以从不同的角度观察立方中的数据,方 便了决策人 员的分析和换位思考。 3、数据分析手段的突破:前人分析数据仓库中的数据,大都使用SQL、TraCt SQL语言,而我对MDX语言进行了深入的研究,并在本课题中进行 了广泛的应用。 本论文中的数据分析全部使用了MDX语句,因MDX语句是多维表达 式,与多维模 型相配合,简化了分析过程,提高了分析效率。 4、数据接口的突破:前人使用的数据接口,大都为 DAO(DataACceSSobjeCt)、 RDO(RemoteDataObjeCt)、 ADO(ACtiveDataObjeet)和 ODBC(openKataBase Conneetivity)以及 OLEDB,而本论文采用了 ADOMD接口技术。 ADOMD是对ADO 的扩展,是专门支持多维数据源的。在 ADOMD接口中,OLAP的查询语言是MDX, 从而使多维分析和多维接口无缝地接合在一起。 、设计了整个系统的结构、分析方案、系统的优化措施及长期的维护 方案。 、建立了接种信息多维数据的概念模型、逻辑模型,为系统的实现奠 定了基 7、设计了OLAP分析模型,并用MDX多维表达式配合VB编程实现。 本文使用 AnalysiSServiceS的目的是将数据转化为所需的知识,并向决策者 提供结论性的、高级别的重要的状态信息。ADOMD、MDx以及OLAP 组件就像智力 拼图,拼出了完美的解决方案,让决策者的决策更科学、更快速、更 有事实根据。 本课题历时一年多,系统的理论基础己经具备,并及时吸收了较新的 研究成果, 建立了系统的数据模型和分析模型。 本系统的不足之处:由于时间仓促,再加上个人水平有限,对济南市 儿童预防 接种的具体信息掌握不细,只做了一些常规分析所需的功能,分析还 需进一步完 第九章结论和展望 结论 本课题是结合济南市儿童预防接种管理系统建立的。在该课题中,本 人研究了 多维立方体的基本理论,查阅了大量相关资料,并根据多维立方体技 术、OLAP技 术的原理,经过认真的思索和创新,在反复与计划免疫人员交流的基 础上,形成 了本论文。 本论文主要的创新点有以下几个方面: l、应用领域的突破:以前研究的多维立方体,大多应用于商业、信息产业。 而本系统将多维立方体理论应用到了儿童预防接种信息管理与分析 中。 2、建立了儿童预防接种信息多维数据的模型、逻辑模型,为儿童预 防接种信 息的分析奠定了基础。 9.2展望 本系统的不足之处:由于时间仓促,未能建立市级的数据平台将数据收集起 来,很多工作还停留在理论阶段。数据挖掘模型还很不成熟,还不能 进行深层次 挖掘。 在未来的2一3年中,希望通过此个案化的数据平台的不断完善,在下一步的 工作中探索尝试结合国家现有的《疾病监测信息报告管理系统》、《突 发公共卫生 事件报告管理信息系统》、((出生登记管理信息系统))和((传染病自动 预警信息系 统》建立一个新的数据挖据平台对疾病的预警从个案化的角度,地域 群体的角度 做进一步研究。 传染病的预替 传染病的预警将是本研究的未来研究方向,将此项研究作为开端和基 础,最终 实现“以儿童预防接种系统为基础,疾病监测信息报告系统和出生登 记信息系统 为辅助,实现兼顾群体和个案化的疾病预警数据挖掘平台”。 我国目前的传染病预警情况,中国疾病预防控制中心的邢慧娴在 2007年9月 的《中华预防医学杂志》有一篇综述《我国传染病的预测预警现状》 是目前我国 疾病预警方面的最新资料。木资料显示我国目前的疾病预警,按方法 分两大类: 定性预测方法(主要有流行控制图法、比数图法、模糊数学理论、马 尔可夫链 预测法等。) 定量预测方法(有灰色动态模型、回归预测模型、Box一JenkinS模型、多元 回归模型、逐步判别模型、小波模型、综合预测模型) 按方式分: 直接预警:直接预警是根据传染病的流行特点、严重程度,确定预警 指标,一 般以一定时间内某局部地区某病的发病数为预警指标。 症状监测预警:症状监测也称为症候群(综合征)监测,是指通过连续、系统地 收集和分析特定疾病临床症候群发生频率的数据,及时发现疾病在时 间和空间上 的异常聚集,以期对疾病暴发进行早期探查、预警和快速反应。 定性预警:定性预警是指利用一定的预测方法,对传染病的流行趋势 进行定性 的判断:上升或下降,对判断为上升幅度超过某预警水平的传染病提 出预警 综述中共列举相关论文50篇,方法10多种。但不同的方法适用不 同的疾病, 有的需要大量监测数据,有的模型不能对局部地区出现的疫情做出灵 敏的预警。 文章最后提出三大问题: l)每种传染病都有自己的流行周期和传染特点,受季节,年龄等多种 因素的影 响。一种模型和方法可能只适用于某种病。或者数据不易取得,需要 大量的监测 资料。 2)理论研究多,实际应用少。 3)缺乏长期、系统的研究。 分析此篇论文不难发现,现在的疾病预警缺乏足够的定量研究,及时 性准确性 不好,各种方法和模型不能适用于所有传染病。通过济南市儿童预防 接种管理系 统的建立,本人有了进一步的思路就是利用接种管理系统个案化的优 势结合《疾 病监测信息报告管理系统》、《突发公共卫生事件报告管理信息系统》、 《出生登记 管理信息系统》建立一个新的数据仓库,实现以针对个人为基础的预 警,从而更 加准确的锁定人群特征。实现针对特点年龄段,特点地区的流行病预 警。这种预 警不但准确度高而且针对性强。摆脱过去那种有疫情就全体普遍接种 的情况。 78 9.2.2其它辅助平台介绍与年度计划 监测信息报告管理系统介绍 国家各类传染病都实现了网络直报,并根据权限提供数据下载。其报 告卡如下: 中华人民共和国传染病报债卡(普通申报流程)返回 报告单位 报告卡编号}晓存后由系统生成〕 身份证号 ,脚厂“,男产:乡 出生日朋)一年厂月厂日格式: 翰单位厂“:岁广2月广。天 性日不瀚年龄产 愚老工作单位}—一—— 2003年01月01日 联系电话 墉崛于厂“本县区。:本市葺它县区产3本有其它地市广;州鳍广:港典 台产。外祝 省现住地址国标 110101Do 现住详细地址!北京市市辖区东城区 中华人民共和国传染编报告卡僧通申报流程)返回 报告单位100000000台计习 报告卡编号!“呆存后由系统生成〕 翔愚者姓名! 愚几球长姓名 身份证号 水性别 出生日期 年龄单位 东生日不详值年龄 愚者工作单位 联系电话 、献属于厂‘互本县区户2本币其它县区广3本省其它地市广几算他 省价5港澳石广已外纬 现住地址国标卜川欢万书辖二习币省县 现住地址国标z一 010100 现住详删址!北巅市辖区东腿””-一 *职业 本系统可以选择审核日期,或发病日期查询,可以选择任意时间段、 是否按发 病率进行统计、现住址类型、诊断类型、疾病分类、疾病病种、统计 列形式和图 形显示方式等条件进行综合查询。 并实现部分统计功能: 加肠拜泪3尔阳至2005勒:月2,日发病数I死亡数实时统计图穿角 稼日期统计 绷树问}年统计衷习!潮习年 薰一称生公异 母亲姓名 国籍 产次 母亲尸藉地址 父亲姓名 国鹅 父亲身份证号 矛级爪共爪价超人一艘葬 t6St 中国 1 山东省济南市历下区千佛山街遣办事处 中国 民族汉族 您是否现住地是 出生日期 民族 其它联系电话区号) 鞍公班熟扩灯典麦粼;获奎茸东边鲤别到、塌 卡片编号 370102DD020D7D0003 份娩方式自然分娩 ’出生结局活产 直体重 34D0克 比孕周第40周 一出生地祥谊)山东省济南市历下区解放路 备注 接生机构名称 灾值卡人hhh 银告地区山东省济有市历下区 ,录入地区山东省济南市历下区 网路报告人历下区 街道办事处 出生医学证明编号 性份娩地点 一出生缺陷 身长 新生儿姓名 一出生例1间 健康状况 翁套浪井- D01 县级及以上医院 无 30厘米 20D7年12月ID日1田寸19分 良好 喂否补报否 ,摘卡日期200不12一12 报告单位:历下区疾病预防技制中心 录入单位:历下区疾病预防控制中心 网络报告时间2D07年12月12日14时 娜嘿J簇料热辉月{丝! 图9一6出生登记管理信息系统介绍报告卡 年度计划内容 2008年,建立济南市的数据平台和数据库,按国家要求建立数据工 作流程 2008年,利用已有的数据对建立的模型进行验证和修改,并结合医 学知识和 流行病统计知识开始在应用和预测领域实现数据挖掘。 2009年初,用循环圆形方法修改模型的参数,结合《疾病监测信息 报告管理 系统))、《突发公共卫生事件报告管理信息系统))、《出生登记管理信息系统》和《传 染病自动预警信息系统》建立更完善的数据仓库,真正实现系统的数 据挖掘。对 疾病做到预警,对发病地区做到提供有价值的资料。 2009年底,实现“以儿童预防接种系统为基础,疾病监测信息报告 系统和出 生登记信息系统为辅助,实现兼顾群体和个案化的疾病预警数据挖掘 平台”。 文中涉及的英文缩写词对应的全称及其汉语意思一览表 缩写词对应的全称汉语意思 COM ThirdNormalForm第三范式 AetivexDataobjeet活动数据对象 AetiveXDataObjectSMults一Dimensional活动数据对象(多维) ApplyProgramInterfaee应用程序接口 eomponentobjeetModel组件对象模型 eentralProeessingunit中央处理一单元 Client/Server客户/服务器 DataAeeesSobjeet数据访问对象 DataBase数据库 DataBaseManagementSystem数据库管理系统 DeeisionSupportobjeet决策支持对象 DeeisionSupportSystem决策支持系统 DataTransformationServieeS数据转换服务 DataWarehouse数据仓库 ExtraetTransformLoad数据抽取转换装载 GraphUserInterfaee图形用户接口 Hybridon一 LineAnalyticalProeessing混合型联机分析处理 Input/Output输入/输出 JavaDataBaseConneetionJava数据库连接 LogSequenceNumber日志记录序列号 Multi一 DimensionDataBase多维数据库 Multi一 Dimensionexpression多维表达式 MicrosoftManagementConsole管理控制台 Mu1ti一 D1mensionalOn一 LineAnalyticalProceSSing多维联机分析 ooBeopenDataBaseConneetivity开放数据库连接 OLAPOn一 LineAnalytiCalProeessing联机分析处理 84 OLEDBobjeetLinkingEmbeddingDataBase 入 数据库对象的链接和嵌 OLTP OnLineTransae七 ionProeessing RAID RedundantArrayofIndePendentDrives RAID RedundantArrayofInexPensiveDisk ROLAPRelationalOn一 LineAnalytiealProeessing StrueturalQueryLanguage Un1versalDataAeeess VB VisualBasie 联机事务处理 冗余独立磁盘阵列 廉价冗余磁盘阵列 关系OLAP 结构化查询语言 通用数据访问 一种可视化的编程语言 「l]萨师煊王珊.数据库系统概论.高等教育出版社,2004.07. 「2」王珊陈红编著.数据库系统原理教程.清华大学出版社,2005.08. 「3]丁宝康董健全编著.数据库实用教程.清华大学出版社,2004.06. [4〕张莉王强赵文董莉.SQLServer数据库原理及应用教程.清华大学出版 社,2003.09. [5〕 IntroduetiontoDataMiningandKnowledgeDiseovery(Third Edition).TwoCrows,Corporation,1999 [6〕Hirosh认risawa, TakashiTomii.DesignofMultimediaDatabaseanda QueryLanguageforVideoImageData.DivisionofEleetriealand ComPuterEngineering, YokohamaNationalUniversity. 「7〕范明孟小峰.数据挖掘概念与技术.机械工业出版社 [8〕Ji二eiHan,MiehelineKamber等著.数据挖掘概念与技术.机械工业出版社, 2007.3. 「9」刘同明等著.数据挖掘技术及其应用.国防工业出版社, 2001.9. 「10〕徐洁磐,马玉书,范明.知识库系统导论.科学出版社,2000 「11〕董琳等译,数据挖掘:实用机器学习技术(原书第2版),机械 工业出版 社(2006) 〔 12)IanH.Witten, EibeFrank, DataMining:PraeticalMaehineLearning ToolsandTeehniques, SeeondEdition, MorganKaufmann,2005 [13]T.Hastie,R.Tibshirani,J.H.Friedman, TheElementSof StatistiealLearning:DataMining, Inferenee, andPredietion,SPringer, 2003 「14」范明等译,统计学习基础:数据挖掘、推理与预测,电子工业 出版社 2004 [15〕 DavidJ.Hand, HeikkiMannila, PadhraiCSmyth, PrinciplesofData Mining, TheMITPress,2001 〔16〕张银奎等译,数据挖掘原理,机械工业出版社,2003 〔17]袁卫等译,数据挖掘:客户关系管理的科学与技术,中国财政经 济出版社, 2004 [18]01iviaParrRud, DataMiningCookbook:ModelingDatafor Marketing, RiskandCustomerRelationshiPManagement,Wiley,2000 「19]朱扬勇等译,数据挖掘实践,机械工业出版社,2003 「2川邝祝芳等译,数据挖掘原理与应用 :SQLServer2005数据库,清华大学 出版社,2007 「21」闪四清等译,数据挖掘:概念、模型、方法和算法,清华大学 出版社,2003 [22〕翁敬农译,数据挖掘教程,清华大学出版社,2003 「23〕袁方等译,实用数据挖掘,电子工业出版社,2004 「24〕贺奇等译,构建面向CRM的数据挖掘应用,人民邮电出版社, 2001 「25〕许建华等译,统计学习理论,电子工业出版社,2004 「26〕张学工译,统计学习理论的本质,清华大学出版社,2004 「27」武森等著,数据仓库与数据挖掘,冶金工业出版社,2003 「25]朱明编著,数据挖掘,中国科学技术大学出版社,2002 86 [29」林杰斌等编著,数据挖掘与OLAP:理论与实务,清华人学出版 社,2003 「30]范明,孟小峰等译,数据挖掘与技术,机械工业出版社,2001 L31」邵峰晶等编著,数据挖掘原理与算法,中国水利水电出版社, 2003 「32」陈文伟等编著,数据仓库与数据挖掘,人民邮电出版社,2004 「33〕陈京民等编著,数据仓库与数据挖掘技术,电子工业出版社, 2002 「34」刘同明等编著,数据挖掘技术及其应用,国防工业出版社,2001 「 35]WEKA中文站,相关数据挖掘电子资料,WEKA中文站2006一2008 [36」胡世雄,邢慧娴我国传染病的预测预警现状中华流行病学2007年9月 「37」杨维中,邢慧娴,王汉章,等,七种传染病控制图法预警技术 研究.中华流 行病学杂志,2004,25:10:39一1041. 「38〕洪荣涛,许龙善,严延生,等.试述突发公共卫生事件的监测 与预警.中国 公共卫生管理,2005,21:106一108. 「39〕李炳烈,叶世南.从SARS疫情论传染病监测信息化的趋势.疾病监测,2004 19:150一151. 「40]杨维中,祖荣强.突发公共卫生事件预警.中华预防医学杂志, 2005,39: 427一429. 「41」吴小清,丁筱竹.应用灰色模型预测流脑发病率.江苏预防医学,2000,H:35- 36. [42)彭志勇、孟凡强传染病自动预警信息系统2008 本文是在导师悉心指导下完成的。承蒙老师的亲切关怀和精心指 导,虽然有繁忙的工作,但仍抽出时间给予我学术上的指导和帮助, 特别是给我提供了思路和方向,使我从中获益不浅。老师对学生认真 负责的态度、严谨的科学研究方法、敏锐的学术洞察力、勤勉的工作 作风以及勇于创新、勇于开拓的精神是我永远学习的榜样。在此,老 师致以深深的敬意和由衷的感谢。还要感谢我的父母,他们在生活上 给予我很大的支持和鼓励,是他们给予我努力学习的信心和力量。 最后,感谢所有关心我、支持我和帮助过我的老师、同学、朋友 和亲人。在这里,我仅用一句话来表明我无法言语的心情:感谢你们!
/
本文档为【儿童预防接种信息管理系统与数据挖掘】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索