儿童预防接种信息管理系统与数据挖掘下载_Word模板_50

is_842972

暂无简介

儿童预防接种信息管理系统与数据挖掘儿童预防接种信息管理系统与数据挖掘目录摘要„„1 ABSTRACT„„2 第一章前言„„1 1.1课题的背景和意义..„„1 1．2课题的提出及国内外发展现状....„1 1.3本课题所做的工作„2 1，4系统设计采用的开发平台„„3 第二章数据挖掘的基本原理„„4 2.1数据挖掘基本概念„„4 2.2数据挖掘技术„„5 2.2.1人工神经网络„„5 2.2.2决策树„„6 2.2.3遗传算法„„6 2.2.4关联规则挖掘算法„„7 2.3数据挖掘的步骤„„8 2.4数据挖掘的功能„„8 2.5...

儿童预防接种信息管理系统与数据挖掘目录摘要„„1 ABSTRACT„„2 第一章前言„„1 1.1课题的背景和意义..„„1 1．2课题的提出及国内外发展现状....„1 1.3本课题所做的工作„2 1，4系统设计采用的开发平台„„3 第二章数据挖掘的基本原理„„4 2.1数据挖掘基本概念„„4 2.2数据挖掘技术„„5 2.2.1人工神经网络„„5 2.2.2决策树„„6 2.2.3遗传算法„„6 2.2.4关联规则挖掘算法„„7 2.3数据挖掘的步骤„„8 2.4数据挖掘的功能„„8 2.5数据挖掘的应用„„9 第三章儿童预防接种信息管理系统的技术基础„„11 3.1数据仓库的基本知识„„11 3.1.1数据仓库的概念与特征„„11 3.1.2数据仓库的系统结构„„12 3.1.3数据仓库的数据装入与更新„„13 3.1.4多维数据仓库的设计„„14 3.2OLAP技术概论„„15 3.2.10以p系统准则„„15 3.2.2以p的特点及结构„„16 3.2.3OLAp的性能„„17 3.2.40以p按数据组织方式的分类„„17 3.2.50以p的多维数据结构„„19 3.2.6以LP的多维数据分析„„19 3.3sQLserve:相关性能研究„„20 3.3.1sQLser概述„„20 3.3.2分析服务器„„20 3.3.3数据透视表„„22 第四章儿童预防接种信息管理系统多维数据模型的建立„„24 4.1儿童预防接种信息管理系统概念模型的建立„„24 4.1.1系统边界的界定„„24 4.1.2数据仓库主题的确定„„25 4.1.3多维概念模型的建立„„26 4.1.4主题域的细化„„28 4.2接种信息多维数据库逻辑模型的建立„„31 4.3儿童预防接种信息管理系统的。Ts设计与实现„„34 4.3.1oTs包与包对象模型„„34 4.3.2利用O丁S实现异构数据转换„„36 第五章儿童预防接种信息管理系统的OLAp设计与实现„„43 5.1儿童预防接种信息管理系统数据源简介„„43 5.2儿童预防接种信息管理系统的OLAp设计„„46 5.2.1儿童预防接种信息管理系统OLAP常规维的设计„„46 5.2.2儿童预防接种信息管理系统OLAP维层次及类的设计„„46 5.2.3儿童预防接种信息管理系统的粒度设计„„49 5.2.4儿童预防接种信息管理系统的分区设计„„50 5.2.5儿童预防接种信息管理系统聚集设计„„50 5.3儿童预防接种信息管理系统的OLAp分析设计与实现„„51 5.3.1儿童预防接种信息管理系统的OLAP分析„„51 5.3.2接种信息分析数学模型的建立„„51 5.3.3用MDX语言实现数据分析.„„57 第六章儿童预防接种信息管理系统的接口设计„„59 6.1儿童预防接种信息管理系统OLAP客户端的体系结构„„，.59 6.2儿童预防接种信息管理系统的数据访问接口„„60 6.3儿童预防接种信息管理系统的接口设计„„62 第七章儿童预防接种信息管理系统的优化与维护„„67 7.1系统性能的优化„„67 7.1.1索引的优化„„67 7.1.2优化„„68 7.1.3儿童预防接种信息管理系统的查询优化„„69 7.1.4儿童预防接种信息管理系统数据立方的优化„„69 7.1.5儿童预防接种信息管理系统中的硬盘优化„„70 7.1.6儿童预防接种信息管理系统中数据载入的最优化„„70 7.2儿童预防接种信息管理系统的维护„„71 7.2.1儿童预防接种信息管理系统维护的调度管理„„71 7.2.2儿童预防接种信息管理系统数据的备份„„72 7.2.3儿童预防接种信息管理系统日志的维护„„72 7.3儿童预防接种信息管理系统的安全性„„73 第八章儿童预防接种信息管理系统评价„„75 第九章结论和展望„„77 9.1结论„„77 9.2展望„„77 9.2.1传染病的预警„„77 9.2.2其它辅助平台介绍与年度

计划

项目进度计划表范例计划下载计划下载计划下载课程教学计划下载

„„79 文中涉及的英文缩写词对应的全称及其汉语意思一览表„„84 参考文献„„86 致谢„„88 随着信息化在全球范围内的推进，各色的数据库被开发出来，越来越多的信息资料开始在数据库内存储。但随之而来的是快速增长的海量数据被存放在大型和大量数据库中，没有强有力的工具，理解它们己经远远超出了人的能力。被描述为“数据丰富，但信息贫乏”。数据挖掘就是在这样的情况下被提出来的，数据挖掘，也可以称为数据库中的知识发现 (KnowledgeDISCoveryinDatabase，KDD)，就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘的研究在2000年以后开始得到普遍认识，2003 年左右各种理论方面的成果得以发表。数据挖掘的应用最早出现是在商业上，随着数据挖掘在商业应用上的成功越来越多的领域开始应用此项技术。国内卫生方面己经有利用数据挖掘的例子，但在儿童预防接种信息方面还未出现此类研究，主要是因为儿童预防接种信息系统刚开始建设并且在数据挖掘方面没有可用的模型可用。但随着儿童预防接种信息管理系统在全国范围内开始应用，此类研究已经迫在眉睫。建立一个有着良好组织结构系统，并能进行高效的有意义的数据挖掘，能为决策人员提供准确有效分析结果的儿童预防接种多维信息管理系统是本文的研究目的，同时结合其它数据资料尝试疾病的预警

报告

软件系统测试报告下载 sgs报告如何下载关于路面塌陷情况报告 535n,sgs报告怎么下载竣工报告下载

。本文的创新之处在于将数据仓库，数据挖掘的理论和技术应用到儿童预防接种信息管理系统中，应用数据挖掘理论分析医学数据。关键词:多维立方体数据仓库数据挖掘免疫

规划

污水管网监理规划下载职业规划大学生职业规划个人职业规划职业规划论文

儿童预防接种 ABSTRACT AlongwiththeadvaneementofinformationizationintheglobalseoPe，assorted databasesaredeveloPed， moreandmoreinformationstartstobestoredinthedatabases. Asaresult， thefastgrowingmagnanimousdata15storedinthelarge scaleandmassive databases， butfornothavingthePowerfoltool， tounderstandthemhasalreadyfar exeeededhuman， 5ability.It15describedas“ thedata15rieh， buttheinformation15 defieient，，. Thedatamining15raisedinsuehsituation， datamining， mayalsobecalledthe knowledgediseoveryindatabase(KDD).It15aProcessthatPeoPleeane Xtractuseful informationandknowledgewhich15IatentandPeoPIedoesnotknowina dvancefrom PraetiealaPPlicationdatawhich15massive，ineomPlete， hasthenoise， fuzzyand stoehastie. Thedataminingresearchhasstartedtoobtaintheuniversalunderstandin gsinee 2000.EaehkindoftheoryasPeetachievementwasPublishedfrom2003.T hedata miningaPPlieationaPPearsearlyinthetradearea， alongwithitssuceessfulusein commercialarea， thisteehnologyaPPlytomoreandmoredomains. IndomestiehygienieasPeet， someexamPlesofdataminingusagehavealready existed， butthiskindofresearehhasnotaPPearedintheehildProPhylaetieinoeula tion informationasPeet， BecausetheehildProPhylaetieinoeulationinformationsystemisa newthingandthere15nodataminingmodelavailable.Butalongwithmor eandmore aPPlicationsoftheehildProPhylactieinoeulationmanagementinformati onsysteminthe nationwidearea， toaPPlythiskindofresearehhasalreadybeenimminent.Thegoalof thearticle15toestablishagoodorganizationalstrueturesystemthrough whiehPeoPle eanea 叮 onhighlyeffeetivesignificantdataminingaPPlieationsandProvidetlle aceurateeffectiveanalysisresultforthePolicy-makingmen. TheinnovativePointsofthisartiele15thatinthisartiele1trytoaPPlythedat a warehouseanddataminingtheoryandteehnologyintheehildProPhylaet ic， thenweean usedataminingtheorytoanalyzethemedieinedata. Keywords:Multi一dimensionaleube，Datawarehouse，Datamining， ExPanded ProgrammedonImmunization，Children， 5immun往ation 1. 卫生部于2007年1月5日下发了《儿童预防接种信息报告管理工作规范》，标志着“儿童预防接种信息管理系统”的建设达到了一个新高度。全国范围内不同级别的儿童预防接种信息管理系统及相应的数据库会陆续建立起来，儿童预防接种管理系统的数据库是一个庞大而复杂的“金库”，如何利用好这些数据，开发这些数据为疾病预防控制工作服务，必将是卫生疾控部门日后面临的任务与课题。济南儿童预防接种信息管理系统的起步早， 2001年就己经在全市推行。市区儿童基本己经达到有接种卡。全市182个接种门诊中很大一部分都有了本机的数据库。这近6年的大批真实详尽的儿童预防接种信息数据是做数据挖掘最宝贵的财富，是其它地市所不具备的。也是能够第一时间开发研究儿童预防接种信息管理系统数据模型和数据挖掘的有利条件。文中以 MICrosoftSQLServer2000为数据仓库平台，多维数据模型采用了星型架构，数据仓库中的数据以多维视图(数据立方)的形式存储，通过Analysis ServiCeS组件提供的OLAP分析功能，利用MDX语言对多维数据集进行了多维度及度量值的分析。数据接口采用了目前功能最强月.极适于多维数据结构的 ADOMD接日，并采用 VISualBasic6.0编程实现。希望依托本系统平台在一下一步的工作中探索尝试结合国家现有的《疾病监测信息报告管理系统》、《突发公共卫生事件报告管理信息系统》、《出生登记管理信息系统》和《传染病自动预警信息系统》建立一个新的数据挖掘平台对疾病的预警从个案化的角度，地域群体的角度做进一步研究。 2 随着儿童预防接种的开展，儿童预防接种部门积累了大量的数据，这些数据中都蕴藏着许多知识，暗藏着许多规律，如能广泛发掘并充分利用这些知识，将使我们更好的为儿童和家长服务，更准确的掌握和了解与接种相关的信息，从而对防控疾病的流行提供有利的帮助。但是，这些数据时间跨度人，涉及方面广，数量庞大，头绪复杂，很难用传统手段进行分析。使用数据仓库技术和OLAP技术，可对这些数据进行多方面的综合分析，因为数据仓库能从分布在各的OLTP 数据库中提取数据，并对其进行预处理，为决策分析提供所需数据;OLAP则利用存储在数据仓库中的数据完成各种分析操作，从中发现决策管理人员所需的知识，并以直观易懂的形式将分析结果展示给决策人员，为他们的决策提供客观依据。经过查阅资料，我发现国内外企业领域、科研领域，尤其商业领域对数据挖掘已经做了大量研究并有广泛的应用，但在儿童预防接种领域国内外并未见相关材料。“儿童预防接种信息管理系统与数据挖掘”就是在这样的需求下，对儿童预防接种管理系统数据挖掘利用的一种尝试。此项研究是我国“儿童预防接种信息管理系统数据建模和数据挖掘”方面的首次尝试。并试图结合国家现有的《疾病监测信息报告管理系统》、《突发公共卫生事件报告管理信息系统》、《出生登记管理信息系统》和《传染病自动预警信息系统》建立一个新的数据仓库对疾病的预警从个案化的角度，地域群体的角度做进、一步尝试。因此在石教授的指一导下，我选择了此课题进行研究，以期对儿童预防接种决策科学化、准确化、快速化、知识化做一点力所能及的事情，但愿这一火花，能点燃数据仓库及OLAP技术在儿童疾病预防领域中的应用之火。 3本课题所做的工作本课题以济南市儿童预防接种信息管理系统的计划免疫数据为数据源，建立了多维数据模型及多维立方体。本论文重点研究以下内容: 1、数据仓库基本技术在医学领域内的应用 2、儿童预防接种信息化多维立方体的规划和建立 3、 SQLServeranalysiSService的应用分析、儿童预防接种信息多维数据模型的建立、儿童预防接种信息OLAP的设计、儿童预防接种信息MDx多维查询分析、儿童预防接种信息的数据挖掘 1，4系统设计采用的开发平台本系统采用Micr。 SoftSQLServer2000做多维立方体服务器，OLAP 服务器采用 MierosoftOLAPserveranalysiS，用MDx作分析查询语言，使用多维立方体与OLAP服务器进行无缝链接，提高数据的一致性，便于数据的转换和传输，提高儿童预防接种信息管理系统的开发速度和可靠性，避免数据不兼容带来的麻烦。 3 第二章数据挖掘的基本原理 2.1数据挖掘基本概念数据挖掘 (DataMining)是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在的和有用的信息或知识。它反复使用多种数据挖掘算法从观测数据中确定模式或合理模型。这些数据可以存放在数据库、数据仓库或其他信息存储中。数据挖掘是一个年轻的跨学科的领域，源于诸如数据库系统、数据仓库、统计学、机器学习、数据可视化、信息检索和高性能计算。其他涉及的领域包括神经网络、模式识别、空间数据分析、图像数据库、信号处理等许多方面，包括商务、经济学和生物信息学等知识范畴。广义_匕数据挖掘是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有趣知识的过程。基于这样的观点，一个典型的数据挖掘系统应具有这样一些主要部分: 数据库、数据仓库或其他信息库:这是一个或一组数据库、数据仓库、电子表格或其他类的信息库。可以对这些数据进行数据清理和集成。数据库或数据服务器:根据用户的数据挖掘请求，数据库或数据仓库服务器负责提取相关数据。知识库:存储领域知识，用于指导搜索、预处理、挖掘和评价结果模式的兴趣度等。数据挖掘引擎:数据挖掘系统的基本部分，由一组功能模块组成，用于挖掘具体类别的知识，用于执行特征化、关联和相关分析、分类、预测、聚类分析、离群点分析和演变分析等任务。模式评估模块:通常用兴趣度衡量，并与数据挖掘模块交互，以便将搜索聚焦在有趣的模式上。也可以与数据挖掘模块集成在一起，提高挖掘的性能。用户界面:该模块帮助用户与数据挖掘系统本身进行沟通交流。一方面用户通过该模块将自己的挖掘要求或任务提交给挖掘系统，以及提供挖掘搜索所需要的相关知识;另一方面系统通过该模块向用户展示或解释数据挖掘的结果或中间结果;此外该模块也可以帮助用户浏览数据对象内容与数据定义模式、评估所挖掘 4出的模式知识，以及以多种形式展示挖掘出的模式知识。数数据库或数据仓库服务器器数据库日数据仓库}}万维网其他信息储存库 2.2数据挖掘技术数据挖掘技术的发展时间并不是很长，但是随着近些年来计算机科学的迅猛发展，数据挖掘技术的发展也取得了长足的进步。现在较为流行的常用技术有以下几种: 2.2.1人工神经网络人工神经网络是对人类大脑系统的特征性的一种描述。简单地讲，它是一个数学模型，可以用电子线路来实现，也可以用计算机程序来模拟，是人工智能研究的一种方法。它仿照生理神经网络结构的非线形预测模型，通过学习进行模式识别。它的特点和优越性，主要表现在三个方面: 5 1)具有自学习功能。例如实现图像识别时，只需先把许多不同的图像样板和对应的应识别的结果输入人工神经网络，网络就会通过自学习功能，慢慢学会识别类似的图像。自学习功能对于预测有特别重要的意义。预期未来的人工神经网络计算机将为人类提供经济预测、市场预测、效益预测，其前途是很远大的。 2)具有联想存储功能。人的大脑是具有联想功能的。如果有人和你提起你幼年的同学张某某，你就会联想起张某某的许多事情。用人工神经网络的反馈网络就可以实现这种联想。 3)具有高速寻找优化解的能力。寻找一个复杂问题的优化解，往往需要很大的计算量，利用一个针对某问题而设计的反馈型人工神经网络，发挥计算机的高速运算能力，可能很快找到优化解。数据挖掘技术中，应用最为广泛的模型是前馈神经网络(feed一 forwardneural network)，也就是多层感知器(MLP)。MLP结构提供了从实数的输入向量x到实数的输出向量y的非线性映射。因此，MLP可以用作回归问题的非线性模型，也可以通过对输出数据做出恰当的解释来用于分类。 2.2.2决策树决策树是一系列的树状结构的列表集，它由树根，树叶，内部节点，树枝组成。它根据一定的算法(如:最大的嫡减少量，XZ统计量，基尼系数等)自动对数据收集信息，选择对当前决策所含信息最多的判别属性，并用它来制定判别规则，代表着决策集的树形结构。在数据挖掘算法中，决策树比神经网路好在它可以生成一些规则，当我们进行一些决策，同时需要相应的理由时，最好使用决策树。常用的算法有以RT，CHAIR， ID3，C4.5，C5.0等。 2.2.3遗传算法遗传算法是一类模拟生物进化的智能优化算法，它是由J.H.H。lland 于六一{1 年代提出的。目前，遗传算法己成为进化计算研究的一个重要分支。与传统优化方法相比，遗传算法的优点是: l)群体搜索 2)不需要目标函数的导数 3)概率转移准则数据挖掘技术中的遗传算法应用是基于进化理论，并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术，主要是进化算法，遗传神经网络算法等。 4关联规则挖掘算法关联规则的概念首先由R.Agrawal等人在1993年首次提出。其一般定义如下: J={ 1，12，„，Im}是一项目集，D是一事务数据库，其中每个事务TgJ。关联规则A二>B的置信度为C，表示为条件概率P(B}A)。就是: SuPPort(A=)B)=P(AU) eonfidenCe(A=>B)=P(BIA) 支持度(S叩port)和置信度(confidence)两个闻值是描述关联规则的两个重要概念，支持度反映关联规则在数据库中的重要性，置信度衡量关联规则的可信程度。基于规则中处理的变量的类别，关联规则可以分为布尔型和数值型;基于规则中数据的抽象层次，可以分为单层关联规则和多层关联规则;基于规则中涉及到的数据的维数，关联规则可以分为单维的和多维的。关联规则是描述数据之间存在关系的规则，形式为“A1八A2八„An?Bl八B2八„ Bn”。一般分为两个步骤:1、求出大数据项集。2、用大数据项集产生关联规则。常用的挖掘算法有:经典频集方法，FP一growth方法， Min_Hashing(MH)方法， L。 Cality_sensitive_Hashing(LsH)方法等。另外，对于处理挖掘多层、多维的关联规则，我们将OLAP和 DataMining技术结合在一起形成了新的体系一 oLAM(on一 LineAnalyticazMining)方法。从关联规则中我们可以挖掘出他们之间的相互关系，形成知识，进而指导生产。另外，除了上述的四个常用方法外，还有粗糙集方法，模糊集合方法， Bayesian BeliefNet。rds算法，最邻近算法(k一 nearestneighborsmethod(kNN))等。采用上述技术的某些专门的分析工具己经发展了大约十年的历史，不过这些工具所面对的数据量通常较小。而现在这些技术已经被直接集成到许多大型的工业标准的数据仓库和联机分析系统中去了。 2.3数据挖掘的步骤数据挖掘是一个复杂的过程，它的一般步骤是: (1)分析问题:源数据数据库必须经过评估确认其是否符合数据挖掘标准。以决定预期结果，也就选择了这项工作的最优算法。 (2)提取、清洗和校验数据:提取的数据放在一个结构__卜与数据模型兼容的数据库中。以统一的格式清洗那些不一致、不兼容的数据。一旦提取和清理数据后，浏览所创建的模型，以确保所有的数据都已经存在并且完整。 (3)创建和调试模型:将算法应用于模型后产生一个结构。浏览所产生的结构中数据，确认它对于源数据中“事实”的准确代表性，这是很重要的一点。虽然可能无法对每一个细节做到这一点，但是通过查看生成的模型，就可能发现重要的特征。 (4)查询数据挖掘模型的数据:一旦建立模型，该数据就可用于决策支持了。在微软的数据挖掘解决

方案

气瓶现场处置方案 .pdf 气瓶现场处置方案 .doc 见习基地管理方案.doc 关于群访事件的化解方案建筑工地扬尘治理专项方案下载

中，该过程通常使用VB或ASP通过 oLEDBforData MiningProvider编写前端查询程序。 (5)维护数据挖掘模型:数据模型建立好后，初始数据的特征，如有效性，可能发生改变。一些信息的改变会对精度产生很大的影响，因为它的变化影响作为基础的原始模型的性质。因而，维护数据挖掘模型是非常重要的环节。 2.4数据挖掘的功能通过预测未来趋势及行为，做出前瞻的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识，主要有以下五类功能: 1、自动预测趋势和行为数据挖掘自动在大型数据库中寻找预测性信息，以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题，数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户，其它可预测的问题包括预报破产以及认定对指定事件最可能做出反应的群体。 2、关联分析数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。 3、聚类分析数据库中的记录可被化分为一系列有意义的子集，即聚类。聚类增强了人们对客观现实的认识，是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初， Mchalski提出了概念聚类技术，其要点是，在划分对象时不仅考虑对象之间的距离，还要求划分出的类具有某种内涵描述，从而避免了传统技术的某些片面性。 4、概念描述概念描述就是对某类对象的内涵进行描述，并概括这类对一象的有关特征。概念描述分为特征性描述和区别性描述，前者描述某类对象的共同特征，后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多，如决策树方法、遗传算法等。 5、偏差

检测

工程第三方检测合同工程防雷检测合同植筋拉拔检测方案传感器技术课后答案检测机构通用要求培训

数据库中的数据常有一些异常记录，从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识，如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是，寻找观测结果与参照值之间有意义的差别。 2.5数据挖掘的应用数据挖掘技术从一开始就是面向应用的。目前，在很多领域，数据挖掘都是一个很时髦的词，尤其是在如银行、电信、保险、交通、零售(如超级市场)等商业领域。数据挖掘所能解决的典型商业问题包括:数据库营销(Database Marketing)、客户群体划分 (CustomerSegmentati。n及ClaSSifieation) 9 背景分析(Pr。 fileAnalysiS)、交叉销售(CroSS一Selling)等市场分析行为，以及客户流失性分析 (ehurnAnalysiS)、客户信用记分 (ereditseoring)、欺诈发现 (FraudDetection)等等。在国外，成功的案例己有许多，举例来说: 1、电话收费和管理中的应用加拿大BC省电话公司要求加拿大 SimonFraser大学KDD研究组根据其拥有的十多年的客户数据，总结、分析并提出新的电话收费和管理办法，制定既有利于公司又有利于客户的优惠政策。 2、竞技运动中的数据挖掘技术的应用美国著名的国家篮球队NBA的教练，利用工BM公司提供的数据挖掘工具一 AdvancedScout临场决定替换队员。 AdvaneedSeout是一个数据分析工具，教练可以用便携式电脑在家里或在路上挖掘存储在NBA中心的服务器上的数据。每一场比赛的事件都被统计分类，按得分、助攻、失误等等。时间标记让教练非常容易地通过搜索NBA比赛的录像来理解统计发现的含义。 3、数据挖掘技术在商业银行中的应用金融事务需要搜集和处理大量的数据，由于银行在金融领域的地位、工作性质、业务特点以及激烈的市场竞争决定了它对信息化、电子化比其它领域有更迫切的要求。利用数据挖掘技术可以帮助银行产品开发部门描述客户以往的需求趋势，并预测未来。美国Firstar银行使用Marksman数据挖掘工具，根据客户的消费模式预测何时为客户提供何种产品。Firstar银行市场调查和数据库营销部经理发现:公共数据库中存储着关于每位消费者的大量信息，关键是要透彻分析消费者投入到新产品中的原因，在数据库中找到一种模式，从而能够为每种新产品找到最合适的消费者。Marksman能读取800到1000个变量并且给它们赋值，根据消费者是否有家庭财产贷款、赊帐卡、存款证或其它储蓄、投资产品，将它们分成若干组，然后使用数据挖掘工具预测何时向每位消费者提供哪种产品。事实证明，预测准客户的需要才能使商业银行具有绝对的竞争优势。 l0 第三章儿童预防接种信息管理系统的技术基础 3.1数据仓库的基本知识为做好儿童预防接种信息管理系统的数据挖掘，首先要将各接种门诊的数据上传到数据仓库，这就需要对数据仓库的集成理论进行研究，选择正确合适的存储策略。 3.，.1数据仓库的概念与特征数据仓库己被多种方式定义，使得很难严格地定义它。宽松地讲，数据仓库是一个数据库，它与组织机构的操作数据库分别维护。数据仓库系统允许将各种应用系统集成在一起，为统一的历史数据分析提供坚实的平台，对信息处理提供支持。按照W.H.Inmon，一位数据仓库系统构造方面的领头建筑师的说法，“数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合，支持管理决策制定”。这个简短、全面的定义指出了数据仓库的主要特征。四个关键词，面向主题的、集成的、时变的、非易失的，将数据仓库与其它数据存储系统(如，关系数据库系统、事务处理系统、和文件系统)相区别。让我们进一步看看这些关键特征: 1、面向主题的:数据仓库围绕一些主题，如顾客、供应商、产品和销售组织。数据仓库关注决策者的数据建模与分析，而不是构造组织机构的日常操作和事务处理。因此，数据仓库排除对于决策无用的数据，提供特定主题的简明视图。 2、集成的:通常，构造数据仓库是将多个异种数据源，如关系数据库、一般文件和联机事务处理记录，集成在一起。使用数据清理和数据集成技术，确保命名约定、编码结构、属性度量的一致性。 3、时变的:数据存储从历史的角度(例如，过去5一10年)提供信息。数据仓库中的关键结构，隐式或显式地包含时间元素。 4、非易失的:数据仓库总是物理地分离存放数据;这些数据源于操作环境下的应用数据。由于这种分离，数据仓库不需要事务处理、恢复和井行控制机制。通常，它只需要两种数据访问:数据的初始化装入和数据访问。 l! 概言之，数据仓库是一种语义上一致的数据存储，它充当决策支持数据模型的物理实现，并存放企业决策所需信息。数据仓库也常常被看作一种体系结构，通过将异种数据源中的数据集成在一起而构造，支持结构化和启发式查询、分析报告和决策制定。根据数据仓库的基本特征，本文在下一章中对儿童预防接种信息管理系统数据仓库的主题进行了分析，然后进行了数据的装载设计(即DTS设计)，并对数据的定时更新进行了研究和设计。 3.1.2数据仓库的系统结构要设计数据仓库，必需清楚数据仓库的体系结构，以便根据其体系结构进行功能的划分并进行具体的实现。数据仓库系统的体系结构通常分为三层: 底层是仓库数据库服务器，负责从操作数据库和外部数据源中提取数据，网间连接的接口可以是oDBc、OLEDB、JDBC、ADo或ADOMD等，本系统选用了最适合进行多维数据操作的 ADOMD接口。中间层是OLAP服务器，负责业务逻辑的实现，所有客户机均可对它进行访问，由OLAP系统实施管理。顶层是客户层，负责数据的表示，包括查询和报表工具、分析工具和数据挖掘工具等。儿童预防接种信息管理系统数据仓库采用三层结构，因为该结构使得数据都集中存储在服务器上，所有用户都可以访问到相同的数据，提高了数据的一致性; 业务逻辑和安全规则在服务器上一次性定义后，可被所有终端用户使用，节省了客户的定义时间;关系数据库服务器仅返回应用程序所需数据，减少了网络流量，避免了网络拥塞;数据存储在服务器上，客户机硬件不需要具备存储和处理大量数据的能力，节省了硬件开销;数据集中存储在服务器上，备份、恢复都很容易。 3.1.3数据仓库的数据装入与更新儿童预防接种信息管理系统数据仓库中的数据来自于各接种门诊，进入数据仓库之前需要经过提取、校验、清理、转换和传输等几个阶段，这项工作的好坏将直接影响将来数据仓库系统数据的完整性、准确性和及时性。本系统使用 MicrosoftSQLServer2000的DTS工具实现上述功能，因为DTS 工具能自动或交互地从多个异构数据源向数据仓库装入数据，且在装入的过程中实现数据的校验、清理和转换。DTS还集成了微软通用数据访问 (UniversalData ACceSS)技术，执行由其他语言编写的脚本程序完成必要的数据处理任务。本系统 l3 选用VB语言进行编程，实现DTS数据装入任务，具体实现见后章节。为便于使用 OTS，一卜面给出DTS的组件模型。中间数据存储仓库服务器数据源可操作数据存储数数据仓库库数数据集市市业务智能分析型应用程序数据分布与清洗数据集市报报告告查查询工具具数据挖掘团团团元数据图3一 2SQLServer20OO的DTS组件模型在儿童预防接种信息管理系统运行过程中，随着事务处理系统中数据的变化，根据数据仓库时变性的特征，数据仓库中的数据也要定时更新，更新的数据分为配置信息和业务进展信息。配置信息存放在数据仓库的维表中，数据量不人，也不易发生变化，选用完全更新方式。业务进展信息存储在数据仓库的事实表中，数据量很大，且时时变化，选用增量更新方式，更新的内容是自上次更新后在OLTP 数据库中变化了的数据。系统采用日志文件方法捕捉更新的数据，因为该方法在提取数据时不扫描整个数据库，而只局限于日志文件，因而不影响 OLTP的性能。 3.1.4多维数据仓库的设计为了得到更好的数据查询响应性能，设计儿童预防接种信息管理系统数据仓库时重点考虑系统的主题和维的设计，同时考虑数据的装载策略、存取策略以及系统的长期维护等问题。主要设计步骤如下: J七童预防接种信息管理系统主题的确定:通过与免疫管理人员反复交流，详细了解他们的业务需求、分析需求及报表需求，确定了儿童预防接种信息管理系统的几个主要主题，如:传染病发病主题、接种情况主题、疾病流行卞题、疫苗情况主题、经费主题、成果的经济效益及社会效益等。 l4 儿童预防接种信息管理系统数据仓库的逻辑设计:确定主题后，需要对主题包含的信息进行详细定义，并对事实表和维表进行详细定义。具体实现见第四章。源数据抽取、转换和装载:儿童预防接种信息管理系统数据仓库的数据都是来预防接种门诊，这些数据都要经过抽取、清洗、转换后才能装入数据仓库。数据的清洗、转换、装载操作在第五章中实现。数据的访问设计:儿童预防接种信息管理系统中的数据按统一格式、不同主题存放到数据仓库后，接着要进行数据的访问设计。为提高访问数据的灵活性，本课题采用了自己编程的方式访问数据仓库中的数据，具体实现见后章节。不间断的维护方案设计:卫生局的领导决策时依据的是数据仓库中的数据，如果其中的数据不进行及时更新，决策依赖的数据就会缺乏最新信息; 数据加载后，若不进行及时的预聚集，查询的速度就会下降;再则，数据仓库中的数据量增长速度很快，若不及时进行优化，就会影响查询速度。所以，儿童预防接种信息管理系统数据仓库需要定时维护，否则它的性能就会越来越差。上述内容将分别在后续章节中实现。 3.2OLAP技术概论在设计过程中发现，要想对数据进行高效、快速、灵活、准确地查询与分析，并以直观易懂的形式将查询结果展现给他们，必须采用OLAP技术，OLAP技术的具体要求由其系统准则进行了限定。 3.2.10以P系统准则联机分析处理(OLAP)的概念是1993年由E.F.Codd博士提出的，在提出该概念的同时，Codd博士提出了O以P系统的12条准则: 1、OLAP模型必须提供多维概念视图:用户决策分析的目的不同，分析问题的角度也就跟着变化，而被分析的数据本身是多方面的，因此OLAP的概念模型是多维的。 2、透明准则:对用户和最终分析员来说，OLAP都是透明的。 3、存取能力准则:OLAP系统不仅能进行开放的存取，还能提供高效的存取。 !5 4、稳定的报表能力:当系统数据的维数和层次数增加时，提供给最终分析员的报表能力和响应速度不应该有明显的减慢。 5、客户/服务器体系结构:OLAP是建立在客户/服务器体系结构之上的。 6、维的等同性准则:系统的每一数据维在数据结构和操作能力上都是等同的。 7、动态的稀疏矩阵处理准则:OLAP工具必须提供最优的稀疏矩阵处理能力。 8、多用户支持能力准则:多个用户分析员可以同时工作于同一分析模型上或在同一数据上建立不同的分析模型。 9、非受限的跨维操作:系统的多维数据之间存在着固有的层次关系，系统应提供计算完备的语言来定义各类计算公式。 10、直观的数据操纵:儿童预防接种信息管理系统中的数据操纵都比较直观，其中的向上综合、向下挖掘和其它操作都能通过直观、方便的操作来完成。 11、灵活的报表生成:儿童预防接种信息管理系统的报表应能从各个方面显示出从数据模型中综合出的数据和信息，充分反映数据分析模型的多维特征。 12、不受限维与聚集层次:分析员可以在任意给定的综合路径上建立多个聚集层次。 3.2.2OLA户的特点及结构本文之所以选用联机分析处理(OLAP)方式对儿童预防接种信息管理系统进行分析，是因为它具有以下几个突出特点: 快速性(Fast):OLAP能在凡秒钟内将分析结果呈现给用户。可分析性 (AnalysiS):OLAP系统能处理与应用有关的任何逻辑分析和统计分析，并可事先编程实现所要求的分析。多维性 (Mult1d1mensi。nal):系统能够提供对数据分析的多维视图，使最终用户能从多角度、多侧面、多层次考察数据库中的数据。共享性(Shared):OLAP使得出的数据能被共享。信息性(工 nformation):OLAP应用能访问所有与应用有关的数据，且数据量可以相当大。上述特点正是儿童预防接种信息管理系统所需要的，所以本文选择 OLAP方式对数据仓库中的数据进行分析。那么，如何构建儿童预防接种信息管理系统的OLAP 模型呢?在构建该系统时，本文采用了将OLAP与OLTP分开的三层体系结构，如图3一3示: l6 数据仓库细节数据数据仓库综合数据 OLAP服务器前端软件第三层:企业服务器共享数据存储与基层运作系统的连接第二层:应用服务器共享局部数据共享应用逻辑第一层:客户最终用户功能数据显示个人数据存储个人应用逻辑图3一3儿童预防接种信息管理系统OLAP的三层体系结构 3.2.3OLAP的性能儿童预防接种信息管理系统的OLAP主要具有以下性能: 1、多维视图能力:儿童预防接种信息管理系统的数据模型本身是多维的(如发病情况立方有时间维、病例维、人口情况维、地域维组成)，使得分析人员可对数据库中的信息进行灵活访问(上卷、一卜探、切片、切块、旋转等)，并能在任何维、任何级别上聚集分析数据。 2、强大的计算能力:儿童预防接种信息管理系统的OLAP通过MDX语句支持复杂的计算，如百分比计算、趋势分析、位移平均值和增长百分比等，正是OLAP 强大的执行复杂计算的能力，使得管理决策人员从数据仓库的数据中发现信息、得到知识，并将原始数据转化成他们需要的信息。 3、OLAP中均包含时间项:儿童预防接种信息管理系统的OLAP中都包含时间项，它是决策人员进行趋势分析的基础。 3.2.4OLAP按数据组织方式的分类儿童预防接种信息管理系统的数据组织方式非常重要，它直接影响数据分析的速度和质量。根据OLAP服务器端数据组织方式的不同，OL炉分为多维 OLAP(MOLAP)、关系型OLAP(ROLAP)和混合型OLAP(HOLAP)三种结构。 MOLAP(Multidimensi。 nalOLAP)利用专有的多维数据库存储数据，多维数据在存储中形成立方(cube)结构，并以多维视图的方式显示。在这种结构中，分散 17 的数据经过提取、清理、转换等步骤后提交给多维数据库，但存入多维数据库前要进行一系列的预处理，并将结果按一定的层次结构存入多维数据库中。该存储结构能迅速响应决策人员的分析请求，并快速将分析结果返回给用户。但因进行了较多的预处理，灵活程度差。 ROLAP(Relati。 nalOLAP)的底层数据库是关系型数据库，其中的数据预处理程度比较低，响应速度比较慢。 HOLAP存储方式中，它的底层是关系型的，高层是多维矩阵型的，事实表按 ROLAP方式存储，预先计算的聚合按MOLAP方式存储。这只种存储方式在处理时间及附加空间的要求上均有较大的差别。根据Erik Thomsen等人的试验，当请示现有聚集的查询时它们之间的差异如表3一1所示。起始RDBMS大小:10.69Ogmb 由表中数据可见，当请示现有聚集的查询时，ROLAP花费最多的处理时间，_且要求最大的额外磁盘存储空间。HOLAP花费最少的处理时间，且要求最小的存储空间。MOLAP的处理时间比HOLAP略长，但比ROLAP要快10倍以上。但是，HOLAP不存储源数据的复本，当需对源数据进行查询而该单元又没有对应的聚合数据时，必须从关系数据库中检索数据(称作请示叶子数据)，这时需要的时间同ROLAP结构相当。具体见表3一2(表中的数据为执行相应操作所需的时间，单位为秒)。由表2.3中对三种存储模式查询性能的比较可明显看出，当需要请示叶子级别的数据来满足查询所需时，MOLAP比其它两种存储模式快得多。为了节省存储空间，儿童预防接种信息管理系统的预聚集程度不高，在查询过程中经常需要访问叶子级别的数据，为提高系统的响应速度，存储模式选择MOLAP结构。 3.2.5OLAp的多维数据结构在MOLAP存储结构中，多维数据以数据立方的形式存在，通常有两种结构: 超立方结构(Hypercube):该结构用三维或更多的维描述一个对象，每个维彼此垂直，数据的测量值发生在维的交叉点上，数据空间的各个部分都有相同的维属性。该结构适于排列整齐的数据库，特点是简化终端用户的操作。多立方结构 (Mult1cube):该结构将超立方结构变为子立方结构，这些子立方是大数据维数的子集，?个子立方面向某一特定的应用。虽然超立方结构易于理解，可以提供高水平的报告和多维视图。但多立方结构具有良好的视图翻转性和灵活性，节省存储空间并减少计算量，所以本系统使用多立方结构，将每个主题设计成一个立方。既提高了查询响应速度，又节省了存储空间，且查询所得的结果更易于理解。 3.2.6OALp的多维数据分析儿童预防接种信息管理系统的oLAP多维分析主要有钻取 (DrinUp和 Drill Down)、切片 (511ce)、切块(DICe)、旋转(Pivot)等。 l9 1、切片和切块:在儿童预防接种信息管理系统的多维数据结构中，按二维进行切片，按三维进行切块，可得到所需的数据。如在接种发病情况立方中选择“病例、地域”两个维作为切片维，可得到各级病例、地域的二维表格，选择“时间、病例、地域”三个维作为切块维，可得到时间、病例、地域段的只维数据立方。 2、钻取:通过下钻则获得想要的细节数据。 3、旋转:在儿童预防接种信息管理系统中，通过旋转，可以让决策人员从不同的角度观察数据，经过换位思考可得到更多的启发。 3.3SQLServer相关性能研究 3.3.1SQLServer2000概述 SQLServer2000是MicroS0ft公司研制的数据库管理和数据分析开发平台，该平台为数据管理与分析带来了灵活性，允许单位在快速变化的环境中从容响应，从而获得竞争优势。因此，本课题选择该平台进行系统开发。 3.3.2分析服务器成性析。 SQLServer2000的分析服务器 (AnalysiSServer)提供了最完整、最具集、可支持Web的分析服务，它可让用户只花很少的时间而对大量数据进行分 SQLServer2000中包括新版的 OLAPServieeS，并将它们称为 AnalysiSServiceS。本文使用AnalysiS 同时增加了数据挖掘功能， Serviees对儿童预防接种信息数据仓库中的数据进行分析，图3一4为本系统的 AnalysiSServiceS体系结构。由图可见，本系统的 AnalysiSServiceS包含以下几个组件:数据源、数据转换、数据存储、AnalysiS服务器和数据透视表服务，其中数据存储包括儿童预防接种信息管理系统的数据仓库、数据集市、OLAP数据库和挖掘模型。AnalysiS ServiceS的核心是AnalysiS服务器，该服务器控制了所有OLAP数据的创建和管理，它从数据仓库中提取和组织数据，并在多维数据库中对数据进行必要的聚集和处理。本文使用的数据源大多是关系型的，利用DTS工具将其中的数据导入数据仓库，并将数据结构转换成星型模式，然后由Analysi:Service利用数据仓库中的数据创建数据立方，这部分的具体实现将在后章介绍。 3.3.3数据透视表由图3一5可见，数据透视表 (PivotTableService)组件是AnalysiS服务器的客户查询接口，对客户来说， PivotTableServiCeS通过OLEDB接口将数据库连接到AnalysiS服务器，查询程序通过 PivotTableService与 OLAPServiees 22 服务器进行通信，查询语言可以是MDX或SQL语言。 AnalysiSServiceS支持各种数据存储模式，其中包括本文选用的MOLAP模式，同时 AnalysiSServices支持 OLEDB、ADO、 ADOMD等接口的用户自定义函数，为数据的导入、存储、聚集、分析以及结果的展示提供了平台。客户端可利用 OLEDB或 ADOMD接口进行客户开发，客户端应用程序可使用C++ 对 OLEDB接口进行访问，或使用组件对象模型(COM)自动化语言(例如 MierosoftVisualBasie)对ADO及其扩展接口进行访问。本系统使用 ADOMD接口，从数据仓库中提取信息时，使用的查询语言为MDX，具体实现见第五章。 23 第四章儿童预防接种信息管理系统多维数据模型的建立所谓数据模型，就是对现实世界进行的抽象，抽象的程度不同，也就形成了不同抽象级别层次上的数据模型。本文着重设计儿童预防接种信息管理系统数据仓库的概念模型和逻辑模型。 4.1儿童预防接种信息管理系统概念模型的建立概念模型是主观与客观之间的桥梁，是为系统设计、信息收集而服务的一个概念性工具，其任务是将现实世界抽象为信息世界，然后将信息世界转化为机器世界。概念模型就是信息世界中的信息结构。关系数据库的概念模型通常采用ER图，但是，ER图反映的是实体之间的关系，不适于进行多维分析。为便于管理决策人员进行多维分析，并使最终的分析更简单、分析结果更直观，本系统将概念模型设计成多维视图。在进行分析时，通过对多维视图切片、切块、上钻、下探和旋转，可轻松满足决策人员所需的各种分析需求。另外，采用多维概念视图方法能比传统的ER图方法节省很多查询时间，并大大降低系统的开销。设一计概念模型所要完成的任务主要有:界定系统边界、确定系统主题域、建立概念模型，主题域确定后，还要进一步确定每个主题应包含的数据内容，即对主题域进行细化，这些都要由分析的要求而定。 4.1.1系统边界的界定济南市儿童预防接种信息管理的内容很多，信息量非常大。济南市自 2004年 5月就开始着力建设全市儿童计划免疫信息化管理系统(客户端)，通过前期大量的准备工作，安装并培训了130个接种门诊，到2004年9月软件正式进入运行阶段，截止2007年9月30日，全市信息化管理已覆盖超过15万余名儿童。在如此多的历史数据前做出决断并非易事。为便于卫生局领导进行决策，根据数据仓库“多维数据模型围绕中心主题进行组织”的指导思想，本文把分散的数据按照不同的主题重新进行组织，并按照多立方结构的形式把它们分别存放到数据仓库的不同子立方中。经过反复交流，认真分析，发现对儿童预防接种信息进行的决策主要有:当前流行病发病情况，儿童的接种信息情况，流行病发病人群趋势总体状况，疫苗的运转情况，人员情况等。 4.1.2数据仓库主题的确定根据工作的需要，经过与相关人员的反复交流，确定了儿童预防接种信息管理系统的主题如下: 1、流行病发病情况:通过对各种传染病的报告情况，各地区的人口数结合各类疾病自身的特点和具体情况，判断疾病的发病率，对可能爆发的疾病提出预警，判断某个地区是否爆发。 2、接种情况:通过掌握人口资料、接种情况，地理等因素，结合实际情况，估算各类疫苗的接种率、及时接种率、成功接种率。 3、疾病流行情况:通过疾病情况，接种情况，和其他因素判断可能流行的疾病和流行的范围，及早将疾病的苗头扑灭。 4、疫苗情况:通过了解不同疫苗的使用情况如:疫苗名称，批号，厂家，库存等，做好疫苗的统计。为领导做出尽可能准确的疫苗储备方案提供依据。 5、人员情况:对济南市从事预防医疗人才的职称、学历、所学专业以及他们拥有的成果等情况进行分析，结合我市的情况，决定下一步人才引进及培养的专业方向、学历层次及数量等。 25 4.1.3多维概念模型的建立根据上述主题及分析所需，设计木系统的概念模型如下: 病例维地域维各种流行病的发病率对可能爆发的疾病提出预警判断某个地区是否爆发维时间人日情况维传染源维况维疫免清叨肠种疾病最容易流行容易在哪些地方流行容易在哪些年龄中流行情维疾病况地理维人群维疫苗维连淮令各地区的疫苗使用量疫苗的库存情况应当储备那种疫苗量维用库存维称维职 .4主题域的细化根据上述主题及概念视图，为便于建立逻辑模型，现将各主题细化如下: .流行病发病主题元数据: 根据流行病的主要三间分布设计一是地域分布:是否具普遍性、地区性、自然疫源性、外来性或输入性。二是时间分布:是否具有季节性、周期性或长期趋势。三是人群分布:是否具有年龄、性别、职业特点。爆发(。utbreak):在一个局部地区或集体单位中，短时间内突然出现很多相同的病人(相同传染源、途径，在一个最长潜伏期内)。维表: 1、时间维(时间编号，年，月，日，上午，卜午) 2、人口情况维(门诊编号，人口数，儿童数) 3、病例维(庆病编且，病名，疾病状态，职业，住址，户籍，年龄) 4、地域维(地区蜿且，单位名称，所属区县，单位地址，联系电话) 事实表: 流行病发病情况(时间编号，门诊编号，疾病编号，地区编号，报告时一间，发病时间) .接种情况主题元数据目前计划免疫常使用按疫苗的收费情况划分，即一类苗和二类苗。一类苗国家承担费用，二类苗家长个人选择。目前的一二类情况如下第一类:计划免疫疫苗，包括冻干皮内卡介苗(卡介苗，BCG)、口服脊髓灰质炎减毒活疫苗(脊灰疫苗，OPV)、吸附百白破混合制剂(百白破，DPT)及白喉、破伤风二联类毒素(白破二联，DT)、冻干麻疹减毒活疫苗(麻疹疫苗，刚)、乙型肝炎疫苗(乙肝疫苗，HBV)，免费接种。第二类:扩大免疫推荐疫苗，包括流行性乙型脑炎疫苗(乙脑疫苗)、A+C群流行性脑脊髓膜炎多糖疫苗(流脑疫苗)、风疹疫苗、流行性腮腺炎疫苗(腮腺炎疫苗)、甲型肝炎疫苗(甲肝疫苗)狂犬疫苗、肺炎疫苗、钩体疫苗、伤寒疫苗等。疫苗收费，自愿接种，按说明书接种。因此设计如下维表: 1、疫苗维(垄道编，呈，所属系列，名称，归类，注射时间) 2、接种时间维(胜包编且，年，月，日，小时) 3、接种地点维(地区编呈，单位名称，所属区县，单位地址，联系电话，接种人) 4、接种人情况维(2』熏编且，姓名，性别，出生年月，所在地区，户籍年龄) 5、疫苗评价维(关型崛且，厂家，有效时间，保护持久度，价格，适用人群) 事实表: 接种情况(疫苗编号，时间编号，地区编号，夕L童编号，类型编号，针次数，副反应情况，费用) .疾病流行情况主题元数据传染病的三要素是:传染源、传播途径、易感人群。控制传染病也从这些方面入手:控制传染源、切断传播途径、保护易感人群。传染源是指体内有病原体生存、繁殖并能将病原体排出体外的人和动物。一般是指被感染的恒温动物。传播途径指病原体从传染源排出体外，经过一定的传播方式，到达与侵入新的易感者的过程。分为四种传播方式: (1)水与食物传播 (2)空气一飞沫传播 (3)虫媒传播病 (4)接触传播人群易感性即人体对某种传染病免疫力低下或缺乏，不能抵御某种病原体的入侵而染病。某种传染病的易感人群占总体人群的比例越高，则这种传染病越易于发生和传播，该病流行的可能性越大。也是疫苗重点防控的人群根据以上，在传播途径不好控制和量化的情况下，重点讨论传染源和易感者维表: 1、传染源维(技染返编且，导致疾病名称，监测情况，历史数据) 2、疾病情况维(疚病编且，疾病名称，易感染度，传播速度，当前指标) 3、免疫情况维(鱼左金呈，免疫名称，人均抗体水平，当前接种率) 4、人群维(人签编且，年龄范围，性别比，所在地区) 5、地区维(地区编且，所属地区，名称，上级编码，级别) 事实表: 流行情况表(传染源编号，疾病编号，免疫编号，入群编号，地区编号，当前日期) .疫苗情况主题数据疫苗的情况复杂，按不同方法有如下划分按性质划分灭活疫苗、减毒活疫苗、组分疫苗、重组基因工程疫苗按剂型划分液体疫苗、冻干疫苗按成分划分普通疫苗、提纯疫苗按品种划分单价疫苗、多价疫苗按含吸附剂划分吸附疫苗、非吸附疫苗按使用方法划分注射用、划痕用、口服用、喷雾用维表: l、疫苗维(反鱼编呈，疫苗名称，生产日期，有效期，厂家，所属种类，疫苗归类) 2、用量维(I生去编且，数量登记，形式，应用领域) 3、库存维(遗侄盏出;，名称，所属门诊，负责人，库存量) 4、冷链维啧昌且编兰;，冷库名，温度记录，单位性质) 事实表: 疫苗情况(疫苗编号，种类编号，冷库编号，器材编号，计划用量，所创价值) .人员情况主题: 从事预防医疗的人员也是我们关注的重点，有助于研究医疗人员梯队的建设和管理。设计如下: 维表: 1、工作时间维(时间编号，年，月，日) 2、学历维(堂迈编且，学历，毕业时间，学位，授予时间) 3、职称维(胆亚编兰，所属系列，级别，评定时间，聘任时间) 4、专业维(支业编呈，专业名称，专业类别，毕业时间) 5、单位维(皇位监吕;，单位名称，单位类别，单位地址，联系电话) 事实表: 人员(时间编号，学历编号，职称编号，专业编号，单位编号，人员数量) 4.2接种信息多维数据库逻辑模型的建立逻辑模型直接反映业务部门的需求，对系统的实施有着重要的指一导作用，是数据仓库实施中的重要一环。目前较常用的逻辑模型有第三范式(3NF，即 Th1rd NormalForm)、星型模型(Starsehema)和雪花模型 (SnowflakeSchema)。第三范式是逻辑模型设计的基础，是规范化的，但由于数据库引擎的限制，为了提高系统的响应速度，实际设计时要对逻辑模型进行不规范化处理 (De- Normalize)。在多维数据模型中常采用星型模型或雪花型模型，它们是非规范化的，从而减小了数据表之间的连接，提供了优异的查询性能，且易于理解。本系统的逻辑模型采用了星型模型，其结构特点是:中心表是一个大的不含冗余的事实表 (faettable)，周围是一组小的附属表，称为维表 (dimensiontable)。维表围绕事实表显示在射线上，像星星爆发一样，故称为星型结构。由儿童预防接种信息管理系统数据仓库的概念模型得出其逻辑模型如下: 4.3儿童预防接种信息管理系统的OTs设计与实现在前文中己经提及，数据仓库中数据的提取、校验、清理、转换和传输是由 DTS工具实现的，即在系统设计时将这些任务定义成DTS包，在系统执行时通过调用己定义的DTS包来完成相应的任务。DTS包是由DTS对象模型中的各元素组成，其中包括DTS包对象、方法、属性和集合等。下面简要了解DTS 包及其对象模型。 4.3.1OTS包与包对象模型 DTS包是一个有组织地连接DTS任务和工作流约束的集合，通过执行己定义的 DTS包可完成相应的DTS任务。DTS包是根据实际需要建立的，每个包都是针对特定任务的工作流对象。创建后的DTS包可保存起来以后运行或者周期性地重复运行，或在某个特定的日期或时间执行，从而实现本系统所需的周期性数据转移。用DTS包实现数据转换的体系结构如图4一H所示: 由图4一n可见，DTS使用OLEDB或ODBC等接口技术连接数据源和目的。中的DTS数据泵是一个DTS对象，其任务是在源与目的之间移动或转换数据，它驱动数据的导入、导出和转换操作，其执行过程如下:首先在源和目标连接上创建行集合，然后在源和目的间移动这些行，在复制每一行时，进行转换操作，并在转换过程中映射列一级的转换，数据泵处理完最后一行数据后，任务结束，数据泵操作终止。儿童预防接种信息管理系统的数据泵行转换操作进程在儿童预防接种信息管理系统中定义DTS任务时要使用DTS包对象，而在使用DTS包对象之前，要在VB的引用对话框中选中 MicrosoftDTSPackageObject 35 Library来设置对DTS包对象的引用。儿童预防接种信息管理系统中用到的DTS包对象主要有以一卜儿个: 连接(ConneCtion)对象，用来定义源和目标的OLEDB数据提供者。 DTS设计器中包含了一系列 OLEDB提供者，本文选择 SQLOLEDB提供者建立连接。任务(Task)对象，用来定义工作项目，本文使用ACtiveX脚本来定义任务。步骤(St即)对象，定义任务对象执行的次序，本文由ActiveX脚本中定义的次序决定。全局变量(Gl。ba1Variable)，用于在一个包中的几个不同的ACtiveX脚本间传递数据或对象，本文中的objpaek雌e、objConneet、objstep、objTask、objpumpTask、。bjCustTask等均为全局变量。转换(Transformation)对象，包含了转换源和目标列的信息，使用户可以从源连接中选择数据，然后经过指定的数据转换，如修改数据类型、精度、改变排列顺序等，再传递到目标连接中去，本文中的objTransform即为转换对象。 4.3.2利用OTS实现异构数据转换除上述模型中指明的对象外，儿童预防接种信息管理系统还要用到 DTS提供的属性、方法和集合，系统正是利用这些元素进行编程来实现将数据从一个OLEDB 36 源拷贝到另一个OLEDB源的。另外，DTS还提供了一个完整的COM 方法集，提供了一组OLE自动兼容的接日，儿童预防接种信息管理系统充分利用这些接日，编写了用户导入/导出和数据转换程序，实现了异构数据的转换。通过编程方式，本文还访问了系统中己定义的DTS任务，编程语言使用了系统开发能力极强的VISual Basie。下面是将疾病报告表中的疾病编号、疾病名称、所属区县、发病人、发病时间等拷贝到数据仓库的课题立方中去的部分VB代码。 PublicSubMain() ， CoPyktsq„kilD， kt.lames，芍ly， sqr， cgxstoDTS一E„ kt. objPaekageAsDTS.PaekageZ objConneetAsDTS.ConneetionZ objstePAsDTS.StePZ objTaskAsDTS.Task lmlmlmlm.... DDDD objPumPTaskAsDTS.DataPumPTaskZ objCustTaskAsDTSConeurrentsamPle.ShoWGlobal objTransformAsDTS.TransformationZ objLookUPAsDTS.LookuP objTranseriPtAsDTSPump.DTSTransformseriPtProPertiesZ sVBS AsString’ VBSeriPttext DD SetobjPaekage二 NewDTS.Paekage objPaekage.FailonError二True objPaekage.LogFileN e二“C八Temp\TestConeurrent.Log“ ’将数据源和目的进行连接 37 SetobJConneCt二。bjPaCkage.ConneCtionS.New(”SQLOLEDB，1 “ WithobjConneetl .Datasouree=“(loeal)” UseTrustedConneetion二True EndWith ObjPaekage.Conneetions.AddobJConneet Set With ob」Conneet二objPaekage.Conneetions.New(”SQLOLEDB.l“ objConneet .ID=2 .Datasouree“(loeal)” .UseTrustedConneetion二True EndWith objPaekage.Conneetions.AddobjConneet 建立复制步骤和任务，并将步骤连接到任务中去 SetobjsteP二obJPaekage.StePs.New obJStep.Najne二”ktsstep” objTask=objPaekage.Tasks.New(“DTSDataPumpTask”) objPumPTask二objTask.CustomTask 十L十Lee?己dC objPumpTask.Name二“ktsTask” obJStep.TaskNajne二objPumpTask.Najne obJSteP.ExeeutelnMainThread=False obJPaekage.StePs.AddobjsteP ’连接复制任务 38 W1thobjPumPTask .SoureeConneetionID1 .SoureeSQLStatement” SELECTktsnajne，zylyID，sqrID“&” FROMktsq“ .DestinationConneetionID=2 .DestinationobjectNe=”〔DTS_UE」.〔mdb〕.〔ktsq]’ .UseFastLoadFalse Max1mumErrorCount99 EndWith 查找申请人或专业领域 Set With objLookUp二objPumpTask.Lookups.New(I’zy1yLU，，) objLookUp .ConneetionID二1 .MaxCaeheRows二0 EndWith objPumpTask.LookuPs.AddobJLookUP Set With objLookUp=objPumpTask.Lookups.New(“SqrLU，，) objLookUP .ConneetionID=1 Query=” SELECTSbdwNameFROMktsq“&“讯」 ERESqrID二? “ MaxCaeheRows=0 EndWith objPumPTask.LookuPs.AddobjLookUp 39 创建并初始化行数及全局变量的设定 objPaekage.Globa1Variables.AddGlobalVariable“ CopyComplete“， False objPaekage.Globa1Variables.AddGlobalVariable” RowsCopied”，0 objPaekage.ExPlieitGloba1Variables二True 创建行拷贝的转换 SetobjTransform二objPumpTask.Transformations. New(”DTSPump.DataPumpTransformSCript”) WithobjTransform .Name二“CopyKtsqName“ TransformPhases二 DTSTransformPhaseTransform+ DTSTransformPhase_OnPumPComPlete SetobJTranseriPt二.Transformserver EndWith WithobjTranseriPt .FunetionEntry二“CopyColumns“ .PumpCompleteFunetionEntry=”PumpComplete“ .Language二”VBSeript“ sVBS=” optionExplieit“&vbCrLf sVBS二SVBS&” FunCtionCopyColumnS()”&vbCrLf sVBS=SVBS&”DTSDestination(，，”KtsName““)=DTSSouree(””KtsName““)”& vbCrLf sVBS二sVBS&“DTSDestination(””ZylyNajne““)二 4O DTSLookupS(”“ZylyLU，，“).ExeCute(DTSSource(””ZylyID”“))“&vbCrLf sVBS二sVBS&”DTSDestinatlon(，，”SbdWN脚e，，”)= DTSLookups(“”SqrLU’，“).Exeeute(DTSSouree(，’“SqrID““).Value)”&vbCrLf sVBS=sVBS&”DTSGloba1Variables(”“ RowsCopied，，“)= CLng(DTSTransformPhaselnfo.CurrentsoureeRow)“及vbCrLf sVBS=sVBS&”CopyColumns=DTSTransformstat_OK”&vbCrLf sVBS=sVBS&刀 EndFunetion”&vbCrLf sVBS二SVBS&” FunetionPumpComplete()”&vbCrLf sVBS=svBS&“DTSGloba1Variables(，，” CopyComplete”“)二True“&vbCrLf sVBS=sVBS&“PumpComplete二DTSTransformstat_OK“&vbCrLf sVBS二sVBS&分 EndFunetion刀&vbCrLf .Text二sVBS EndWith objPumPTask.Transformations.AddobjTransform objPaekage.Tasks.AddobjTask 创建监视步骤，并将该步骤连接到任务中去 Setobjstep=objPaekage.Steps.New objstep.Najne=“GVMonitorstep” SetobjTask=objPaekage.Tasks.New(“DTSConeurrentsajnple.ShowG lobal“) objTask.Name二”GVMonitorTask“ objsteP.TaskNajne二objTask.Najne SetobjCustTask=objTask.CustomTask 41 objCustTask.GVMonitor二“ RowsCopied” objCustTask.GVFinish二” CopyComplete” obJSteP.ExeeutelnMainThread=True objPaekage.StePs.AddobJSteP 将监视任务连接到包上，并运行包 objPaekage.Tasks.AddobjTask obJPaekage.Exeeute EndSub 本系统使用了编程的方法完成了数据仓库中数据的提取、校验、清理、转换和传输，即提高了系统的自动化程度，也提高了系统的执行速度。第五章儿童预防接种信息管理系统的OLAP设计与实现第四章主要论述了儿童预防接种信息管理系统数据仓库模型的建立，本章将具体研究如何设计并实现该系统的数据立方以及如何分析立方中的数据并发现知识。本系统的OLAP分析是从卫生局决策者的角度对数据进行分析与运算，这里的 “角度”就是OLAP立方中的维。OLAP数据库的层次结构非常关键，如果一个多维数据库的层次结构设计不好，就会增加维的数目，从而增加存储空间，延长查询时间。所以，合理设计OLAP的维及其层次是OLAP数据库设计的重要任务之一。为便于维的设计，有必要先对儿童预防接种信息管理系统的数据源进行了解。 5.1儿童预防接种信息管理系统数据源简介济南市儿童预防接种所提供的数据源中数据库文件及其结构如下: 表汇总: 数据源中的文本文件主要有儿童预防接种的接种监测、疾病监测，管理制度. 门诊监测，各单位的情况，硬件设备等相关信息。 5.2儿童预防接种信息管理系统的OLAp设计儿童预防接种信息管理系统OLAP立方中的数据是根据维中的信息来组织和分组的，因此在创建数据立方之前，必须首先创建用来组织数据的维。本文‘首先对常规维进行设计。儿童预防接种信息管理系统OLAp常规维的设计常规维有共享维 (Shareddimensi。n)和私有维 (privatedimension)两类。被两个或两个以上的立方共同拥有的维称为共享维，只在一个立方中使用的维称为私有维。共享维在 AnalysisServices启动时，自动载入内存，供各立方共用，从而加快查询的反应速度;而且，维的一致性越高，越有可能被多个立方共用: 共享维可以有效地利用内存、节省处理时间和开发时间。因此，本系统将两个或多个立方中具有相同信息的维都设计成共享维。 JL童预防接种信息管理系统OLAp维层次及类的设计 MicrosoftOLAPServices维一般都包含着层次关系，每个层次包含一个或多个维成员，多个层次中的维成员排列成多个层次，成员的这种层次结构称为概念分层，它为实现将低层概念映射到高层概念提供了方法，也为数据的上卷、下钻操作提供了基础。实现多维数据操作的另一种方法是使用维内元素的“类”，即按一定的标准对维成员的全集进行划分。从集合论的角度来讲，将维的全体成员设为一个全集，类就是该全集的一个划分，划分后的子集具有下述特点:所有子集均互不相交，但其和等于全集。对应类的一个属性，就有对维成员的一个划分，类属性不同，得到的划分也不同。如接种人员按职称划分为高级职称、副高级职称、中级职称、初级职称;按学位划分为博十、硕十、学位、无学位;按性别划分为男、女等。层次和类是两个不同的概念:层次是有父子关系的，维的层次越高，粒度就越大，其子成员就越多。在一个层次结构中，维的层数越多，粒度层次就越丰富。 46 类则是对维成员按某一属性进行的划分，成员之间不存在父子关系，只反映成员的共同特征，这个共同特征是由类属性的划分标准来表达的。在儿童预防接种信息管理系统的多维数据分析中，既有按维的层次关系进行的分析，也有按维成员的类进行的分析。在维的层次关系上进行的分析主要有两种:一种是从维的低层次到高层次的数据综合，或称聚集分析;另一种是从维的高层次到低层次地数据钻取分析，这两种分析都是跨越维层次的分析。按照维成员的类进行的分析也有两种:分类与归纳，分类是由粗粒度成员向细粒度成员进行的下探，归纳则是由细粒度成员向粗粒度成员进行的汇总。因此，儿童预防接种信息管理系统的数据分析既有在维的层次关系上进行的，又有在维成员的类别上进行的。但是，为降低系统分析的复杂性、减少存储空间的占用，本系统维的层次结构尽量简单。因为，维的层次结构越复杂，所需的存储空间越多，查询中的引用也复杂，从而在聚集时引起数据爆炸。综合考虑各个方面，本系统的维层次及分类设计如下。时间维的层次结构全部(All)成员:l year成员:30 month成员:12 day成员:引门门诊维的层次结构构全全部(All)成员 :111 示示范化成员 :8000 规规范化成员 :13000 年龄维、批准经费额度、使用经费额度等维的成员值均为数值型，取值较多。为便于统计、易于理解，现对这些维进行离散化，即数字概化，从而节省存储空间。儿童预防接种信息管理系统的粒度设计粒度是数据仓库中数据综合程度的度量，细粒度的数据可让Analysis ServiceS挖掘出更有意义、更有价值的信息，但是，粒度越细，存放数据所需的空间也就越大、查询响应的时间也就越长。儿童预防接种信息管理系统数据仓库中的绝大多数查询都是基于一定程度的综合数据之上的，只有少数查询涉及到细节，为了兼顾细节查询和快速响应的要求，该系统对数据进行了不同程度的聚合，将聚合后的数据按MOLAP结构存储于数据立方中，而叶子级的数据则仍存放在OLTP 数据库中，从而形成了一个多重粒度的数据组织结构。 49 5.2.4儿童预防接种信息管理系统的分区设计由于分区后的查询只需访问相关数据所在的分区，不需对整个数据仓库进行访问，从而改善了多维数据仓库的查询性能和加载性能。分区后的多维数据可使多个用户同时加载各自对应的分区而互不影响，并可独立添加或丢弃另外的分区，提高了系统的并行性。所以在设计数据仓库时均考虑对数据进行分区。虽然分析服务对多维数据集中分区的数量没有实际限制，但当分区很多时，从多个分区合并结果集的开销将明显增加。儿童预防接种信息管理系统将每一万行事实数据作为一个分区，若分区超过一万行时，则将粒度进行细化，如:开始数据较少时，采用年作为数据立方的粒度，当一个分区中数据量超过一万行时，采用月作为数据立方的粒度，依次类推。因为该数据仓库中许多查询都集中在最近的时期内，所以用时间作为第一分区矢量。使用多维数据集填充应用程序周期性地从数据源中加载数据，从而使各分区中的数据均随时间的推移自动加载和维护。 5.2.5儿童预防接种信息管理系统聚集设计利用 SQLServer2000平台设计的儿童预防接种信息管理系统的OLAP，能预先在独立的区域中进行汇总并存储聚集数据，能高效地表示聚集数据，这两项功能减轻了大型查询和迅速聚集对数据仓库和OLTP数据源产生的负载，同时降低了即时查询所需处理的数据量和查询时间。设计儿童预防接种信息管理系统时，聚集程度也是要考虑的重要因素，因为聚集程度越高，查询所需的时间越少，但由于聚集时所需的存储空间将以指数形式增长，聚集程度过高，就会产生“数据爆炸”现象。为避免出现“数据爆炸” 现象，本系统的初始聚集设计的很小，然后根据需要使用优化向导逐步增加聚集的数量。实现方法如卜: 首先选择 Too15{DesignStorage打开存储向导，为立方体选择数据存储方式，根据前面所述，此处选择MOLAP存储方式。接着选择性能，告诉 OLAPServiCeS 本系统优先考虑存储，然后让它为立方体选择聚集。为避免出现“数据爆炸”现象，首先选择使用O聚集，然后迭代地使用 UsageOPtimization对基于典型用户活动的一些会话来创建聚集。 5.3儿童预防接种信息管理系统的OLAP分析设计与实现儿童预防接种信息管理系统的OLAp分析儿童预防接种信息管理系统利用MDX多维表达式对数据仓库中的数据进行组织与汇总。当决策管理人员搜寻答案或试探可能性时，在得到对历史数据查询的回答后，经常需要执行进一步地查询，MDX语言为研究复杂的业务数据关系提供了强大的功能。在 OLAPServiceS中，所有分析都可通过MDX语言进行查询和表达， MDX是微软 AnalysisServices专用的多维查询语言，它提供了许多工具来支持查询中的复杂分析，其函数可以在任何有效的MDX语句中使用，并可用于查询、计算成员以及自定义汇总，本系统使用MDX作为查询分析语言，快速灵活地为决策管理人员提供实时支持。 MDX查询的结果也是立方体，称为结果立方体，MDX查询就是将待查询的数据立方体转化为结果立方体的过程。为便于区别，结果立方体用轴代替数据立方体中的维，轴的编号从0开始，依次增加，最多可为64。在MDX查询中，必须指定被查询的数据立方的维与结果立方的轴之间的对应关系，为了便于在概念上与典型的打印报告一致，结果立方的前三个轴分别取名为“列”、“行”和 “页”，且顺序是固定的。MDx的每个查询至少具有SELECT.二FROM.二WHERE这一结构，并在 SELECT子句中指明轴与维的对应关系。 5.3.2接种信息分析数学模型的建立如前所述，接种信息数据仓库中己建立了疾病发病立方、接种立方、疾病流行立方、疫苗立方、人员立方(recognize)等。根据决策者的实际需求，有时需进行人才分析，如查询各类职称的人数、各类学历的人数、各年龄段的人数、各专业人才的人数、各研究方向的人才数量、各类单位拥有的人才数量等，有时还需要对人才进行综合查询。还要分析各种疾病的各种概率，疫苗的使用情况，门诊的报病情况综上所述，下面给出分析所需的部分数学模型发病率 (ineideneerate): 表示在一定期间内，一定人群中某病新病例出现的频率。分子:一定期问内的新发病人数。分母:指可能会发生该病的人数。应用用作描述疾病分布探讨病因评价防治措施效果注意发病率的准确度受很多因素影响不同地区、人群发病率的比较要标化发病率=一定期间内某人群中某病新病例数同期暴露人口数x厂催患率 (attaekrate): 在某一局限范围，短时间内的发病率。适用:局部地区疾病的爆发，食物中毒、传染病及职业中毒等爆发流行优点:根据暴露程度精确测量发病几率患病率 (prevaleneerate) 某特定时间内总人口中某病新旧病例所占比例。按观察时间分为:期间患病率和时点患病率发病密度 (ineideneedensityIn) 某病在一定时间内新发病例数占该动态人群的比例。以‘，)=l一exP[ID(，)./] 死亡率 (mortalityrate) 表示在一定期间内，在一定人群中，死于某病(或死于所有原因)的频测量人群死亡危险最常用的指标。夕七亡率=某期间内(因某病)死亡总数同期平均人口数x尤应用用于衡量某一时期，一个地区人群死亡危险性大小的指标反映一个地区不同时期人群的健康状况和卫生保健工作的水平为该地区卫生保健工作的需求和规划提供科学依据探讨病因和评价防治措施病死率 (fatalityrate) 表示一定时期内(通常为1年)，患某病的全部病人中因该病死亡者的比例。若某病处于稳定状态时，病死率可由死亡率和发病率推算病死率某时间内因某病死亡人数同期患某病的病人数 x100% 应用表示某确诊疾病的死亡概率，衡量其对生命威胁的程度可表明该疾病的严重程度反映医疗水平和诊断能力通常多用于急性传染病，较少用于慢性病生存率 (survivalrate) 是指接受某种治疗的病人或患某病的人中，经若干年随访(通常为1、 3、5年) 后，尚存活的病人数所占的比例。应用: 反映了疾病对生命的危害程度用于评价某些病程较长疾病的远期疗效在某些慢性病(如肿瘤、心血管疾病)的研究中常常应用潜在减寿年数 (potentialyearsoflifel。st，PYLL) 指某病某年龄组人群死亡者的期望寿命与实际死亡年龄之差的总和。即死亡所造成的寿命损失。疾病负担测量的一个直接指标人群健康水平的一个重要指标报表统计与统计分析中统一遵循的统计规则如下: 53 月应种人数二本月受种人数之和十本月最后一天的符合接种要求但未接种的人数。小于12月龄的月应种人数=本月小于12月龄的受种人数之和十本月最后一天符合接种要求但未接种的小于12月龄人数。双月应种人数=第一个月的受种人数之和+第二个月的应种人数。小于12月龄的双月应种人数二第一个月的小于12月龄的受种人数之和十第二个月小于12月龄的应种人数。季应种人数=第一、二个月的受种人数之和十第二个月的应种人数。小于12月龄的季应种人数=第一、二个月的小于12月龄的受种人数之和+ 第三个月的小于12月龄的应种人数。年应种人数=本年从l到n月份的受种人数之和+本年12月份的应种人数。小于12月龄的年应种人数=本年从l到n月份的小于12月龄的受种人数之和十12月份的小于12月龄的应种人数。小于12月龄:直到统计当天，不满1周岁的儿童儿童类型:本地儿童是指建档县为本地的儿童;流动儿童是指建档县不为本地，而接种县为本地的儿童。受种人数二在统计时间段内本地区该疫苗剂次的总接种人数。接种率二(受种人数/应种人数 )X100% 加强免疫应种人数:按照国家免疫程序规定的免疫时间统计的应种人数(只统计规定的年龄)。统计报表中统计疫苗的合格情况时，疫苗接种的合格条件如下: 乙肝疫苗没有起始月龄第一剂与第二剂间隔时间)28天第二剂与第三剂间隔)60天第一剂与第三剂间隔多6个月所有的剂次必须在12月龄内完成首剂及时:接种时间一出生时间蕊1天卡介苗没有起始月龄 55 必须在12月内完成脊灰疫苗第一剂起始月龄)2个月第二剂与第一剂间隔时间)28天第三剂与第二剂间隔多28天所有的剂次必须在12月龄内完成加强免疫在4岁一7岁内完成麻疹起始月龄)8个月必须在12月龄内完成加强免疫在满18月龄一7岁内完成百白破第一剂起始月龄)3个月第二剂与第一剂间隔时间)28天第三剂与第二剂间隔)28天所有的剂次必须在12月龄内完成加强免疫在满lS月龄一7岁内完成乙脑第一剂起始月龄)8个月第二剂与第一剂间隔时间7一10天加强免疫第一剂在lS个月龄一7岁内完成加强免疫第二剂在6岁一7岁内完成流脑第一剂起始月龄)6个月 56 第二剂与第一剂间隔时间)3月加强免疫第一剂在3岁一7岁内完成加强免疫第二剂在6岁一7岁内完成 5.3.3用MOX语言实现数据分析上面已给出了系统分析所需的数学模型，下面给出实现上述分析的部分MDx 代码。在拥有人员中，分析高级和副高级职称人员所占的比例: WITHMEMBER[MeasureS」 .[ratioofthetitleofateehniCalpostin al1harvest〕 AS‘([Measures」.〔Cgjs」，[talent].[zC〕)/Count([All harvest〕.members)’ SELECT {[Measures〕. ratioofthetitleofateehnicalpostinall harvest〕 }oncolumns {[talent〕.[zC〕.MemberS} FROMharvest OnrOWS WHERE[talent」.[ze〕查询各系列职称人数及所占的比率: WITHMEMBER[Measures].[zrs〕 AS‘ Count([Al1talent」.MemberS，ExCludeEmPty)’ MEMBER[Measures〕 .[talentXLratio」AS‘[Measures」 .[thetitle ofateehniealpost〕‘[XL〕/[Measures].[Zrs〕’ SELECT {[Measures」.[rySI」，[ze」.[Ze一XL〕， [Measures].[talentXLratio」} oneolulnns {[ze〕.[ze一 jbj}onrows FROMtalenteube WHERE[time」.[2003〕 57 查询今年各类学历的人数，代码如下: SELECT{[MeasureS」.〔rySI」}。nc。lumns {[XL〕.〔 XLlb]}onrows FROMtalenteube WHERE〔 t1me〕.[year」.Current 查询各年龄段的人数及所占的比率: WITHMember仁MeasureS」.「Age」AS‘〔year〕.CurrentMember一〔Age〕. [birth_year」’ SELECT{〔MeasureS〕.[Age」}。ne。lumns {「Age」 .[birth_year].Members}onrows FROMtalenteube 接种人数最多的前20个门诊: TopCount([gain」.members，20，〔MeasureS」.[CgxS]) 统计上年度类疫苗的数量所创价值: WITHMEMBER[MeasureS〕 .[numberofharvest] AS‘Sum(〔egxs」 .[Al1cgxs」)’ MEMBER[Measures]，〔 prieeofharvestcreated〕AS ‘sum([Scjz〕 .[AllsCj幻) SELECT {[MeasureS〕 .[numberofharvest」，[MeasureS〕 .[priceofharvest ereated〕 }oneolumns {〔harvest〕.〔 zyly]}onrows FROMExtendCube WHERE([time」.〔year」.currentmember一1) 将2006年各门诊报告病例数按降序排列: Order([harvest〕.members，(〔MeasureS〕.[tges〕，〔time〕.〔2006〕， [harvestj. [yyl丫〕)，BDESC) 查询报告疾病最多的三个单位: TopCount(〔All Harvest〕.MemberS，3，([talent」.[szdw〕.[dwlb〕，[Measures」.[egjs〕)) 58 第六章儿童预防接种信息管理系统的接口设计由儿童预防接种信息管理系统数据仓库的体系结构可见，本系统 Analysis ServiceS的两个主要组成部分是 AnalysiSServiCeS服务器和客户端。前面己对儿童预防接种信息管理系统的 AnalysiSServiCeS服务器进行了详细设计，为了进行儿童预防接种信息管理系统客户端的接口设计，下面首先研究 OLAP客户端的体系结构。 6.1儿童预防接种信息管理系统OLAp客户端的体系结构儿童预防接种信息管理系统客户端体系结构的核心是数据透视表服务 (PivotTableServiCes)，它是连接AnalysiS服务器和用户的桥梁，用户通过接口访问数据透视表，数据透视表又可直接访问AnalysiS服务器。本系统使用数据透视表服务在线访问OLAP数据和数据挖掘模型、在线分析并进行数据预测。通过使用数据透视表服务的缓存管理功能，本系统还能对缓存中的数据进行离线分析。由图可见，儿童预防接种信息管理系统的数据透视表服务是实现将 OLAP立方从OLAP服务器传递到客户端应用程序的工具，它向开发者提供了两个查询OLAP 数据源的接口:一个是直接为OLAP服务的OLEDB接口，另一个是建立在OLEDB 之上的ActiveX多维数据对象 (ADOMD)接口。 OLEDB接口直接与数据透视表服务相连接，适于采用VC语言编程访问，ADOMD是对OLEDB的封装，适于采用VB 语言编程访问。由于采用VB语言编程访问 ADOMD接口可降低程序的复杂性，本系统选用了 VisualBasic6.0对ADOMD接日进行访问，并配合MDX 语言对立方中的数据进行查询或聚集。因为ADOMD是适于访问多维数据的接口，而MDX是专门用来查询多维数据源的语言，因而在分析数据时，儿童预防接种信息管理系统中的各组件无缝地工作在一起，兼容性极好。因为要对接口进行编程，下面对接口进行探究。 6.2儿童预防接种信息管理系统的数据访问接口虽然 OLEDB接口 (objeetLinkingEmbeddingnataBase)提供了与数据库服务器无关的通用数据访问(UDA)手段，但它是一个底层的数据访问接口，访问方法较为复杂。ADO是基于OLEDB技术之上的另一接口，它是对OLEDB的一个高层封装，通过ADO接口访问数据时，速度快、内存支出少、磁盘遗迹小，且可访问不同类型的数据源，使用方法简单，在实用中得到了很高的评价。为了访问多维数据，微软对ADO进行了改进，推出了适用于多维数据访问的 ADOMD接口。该接口除具有ADO接口的所有优点外，还具有易于管理多维数据的特点:便于浏览多维数据模型、易于查询多维立方体等。为便于进行多维操作， ADOMD的对象模型中包含了专门针对多维数据的对象，其对象模型与ADO对象模型有很大区别。为便于使用 ADOMD编程，一卜面给出 ADOMD的对象模型。从该对象模型中可以看出多维数据模型中的立方体、维、层次、级别及成员之间的关系，以及结果集与坐标轴之间的关系。从图中还可看出，ADOMD提供了多个集合，用来存放(包含)同一个类的对象。如AxeS集合用来包含AxiS对象，CubeDefS用来包含CubeDef对象，Dimensi。ns 集合用来包含Dimensi。n对象等。通过 ADOMD接口中集合的属性和方法，可以实现相应的操作。如: ActiveConneetion属性用来指示当前单元集或目录当前属于哪个 ADOConnection 对象，Caption属性用来指示显示Level或Member Ch11dCount属性用来指示在分级结构中当前Member 充分利用问的全部功能， ADOMD的对?象、集合、方法和属性，对象时所使用的文本标题，对象的子成员数目等。可实现对 ADOMD接口访下面编程具体实现接口的访问。 6.3儿童预防接种信息管理系统的接口设计为实现更好的灵活性，儿童预防接种信息管理系统采用VB编程语言和MDx查询语言相配合的方法对接口进行编程设计，即采用 VISualBasic作为客户端开发工具，使用ADOMD访问多维数据集，使用MDX查询语言对数据立方进行查询。为从立方中获取数据，采用了将MDX串传递给ADOMD的 Ce11Set对象的Source属性的方法。在进行查询前，首先使用 ActiveConneCtion属性连接到本地的数据立方，建立ADOMD的连接，被连接的数据立方存放在C八kjglj\jzxi\。laP\data\ 目录下，立方名为jzxi.cube(接种信息立方)，服务器名为myserver，数据存储模式为MOLAP。建立连接后，使用 ADOMD中的Cellset打开多维数据集。下面是针对 ADOMD接口操作的部分代码，其功能是首先扫一印立方中每个维的名称，接着显示每行或每列的表头成员标题，然后显示各单元集格式化的值。程序代码如下: PrivateSubcmdCellsettoDebugwindo礼Click() 先定义程序中要用到的各变量 eatAsNewADOMD.Catalog edfAsNewADOMD.CubeDef estAsNewADOMD.Cellset AsInteger AsInteger strserverAsString strsoureeAsString strColumnHeaderAsString strRowTextAsString *若出错，调用出错处理程序 OnErrorGoToError_emdCellsettoDebugwindotCliek Sereen.MousePointer=vbHourglass *设置服务器为本地主机 strserver二“myserver“ *设置MDX查询字符串 strsouree二strsouree&，， SELECT，， Strsouree=StrsourCe&“{[MeasureS〕 .members}ONCOLUMNS strsouree=strsouree& ，， NONEMPTY[22].〔 zzxl].membersONROWS” strsouree=strsouree&“ FROMjzxi” *建立动态连接 63eat.AetiveConneetion二朋 DataSouree二尸&strserver& 万:Provider二msolap:” est.Souree二strsouree *创建ADOMD对象，并设置动态连接至当前的单元集’ est二 NewADOMD.Cellset edf=NewADOMD.CubDef est.AetiveConneetion=eat.AetiveConneetion *打开当前连接的单元集 est.OPen *打印立方中每个维的名称’ Fori=0Toedf.Dimensions.Couzlt一l Debug.Printedf.Dimensions(i).Na!ne NeXt *显示每行或每列的表头成员标题，然后显示各单元集格式化的值’ strColumnHeader=vbTab&vbTab&vbTab&vbTab&vbTab&vbTab 二 0Toest.Axes(0).Positions.Count一l strColumnHeader二strColumnHeader& est.Axes(O).Positions(i).Member。(0).Capti。n&vbTab& vbTab&vbTab&vbTab Debug.PrintvbTab&strColumnHeader&vbCrLf strRowText二# Forj二 0Toest.Axes(1).Positions.Count一l strRowText二strRowText& 。St.AxeS(l).Positions(j).Meobers(0).Caption&vbTab&_ vbTab&vbTab&vbTab 0Toest.Axes(0).Positions.Count strRowText=strRowText&est(k，j).Formattedvalue&_ vbTab&vbTab&vbTab&vbTab eXFo Debug.PrintstrRowText&vbCrLf StrRowText= Next Sereen.MousePointer二vbDefault ExitSub Error_emdCcllsettoDebugwindotCliek: BeeP Sereen.MousePointer=vbDefault MsgBox“ TheFollowingErrorhasoeeurred:”&vbCrLf& Err.Deseription，vbCritieal，”Error!’ ExitSub EndSub *清除无用对象，释放内存空间，避免内存泄露 seteat=Nothing setedf=Nothing setcs拼Nothing 第七章儿童预防接种信息管理系统的优化与维护在儿童预防接种信息管理系统的运行过程中，数据量将会与日俱增，其性能、安全性、可靠性都会受到来自各方面的挑战，如性能变差、系统遭遇非法攻击等，这些情况若得不到及时解决，随时可能造成灾难性的后果。系统优化的目的是通过将网络流量、磁盘工/O和CPU时间等减到最小，从而缩短每个查询的响应。为达此目的，需要在相互冲突的要求之间进行平衡，尽量在不增加硬件投入的前提下提高系统的性能。在 SQLServer中，尽管可以手动配置和调整一些Sp_Configure 选项，但因为 SQLServer的数据库服务器能自动动态地调整，实现数据库引擎的自行优化，所以一般不对系统进行手动优化。系统性能的优化儿童预防接种信息管理系统数据仓库的数据量大，占用的存储空间多，进行分析时所需时间长。所以需要对系统性能进行优化，从而减少存储空间的占用、缩短处理时间、减少实时查询的执行时间。本文从数据索引的优化、查询速度的提高、数据立方的优化、硬盘的配置和提高数据载入速度等方面对系统进行优化。索引的优化要缩短查询时间，建立良好的索引是关键。针对儿童预防接种信息管理系统数据仓库的操作主要是读操作，索引做得好，将会大大提高读取数据的速度和分析查询的速度。本系统使用 SQLServer2000中的索引优化向导 (IndexTuningwizard)对索引进行优化，该向导可以选择和创建优化的索引集，并建议应该创建的索引。方法如下:在运行索引优化向一导前，先在 SQLServerProfiler中建立一个新跟踪，用来捕获默认事件。接着在 SQLserverProfiler中打开 Too1SJIndex Tuningwizard，在下一界面中，单击Next，在确定己登录到 SQLServer上之后，选择 Addindexviews(增加索引视图)，清除 Keepallexistingindexes(保留所有现有索引)。对于 Tuningmode(调整模式)，选择Thorough(完全调整) 进行彻底分析，从而使索引优化向导对查询进行详尽的分析，使所优化的工作负荷的性能得到全面提高。为打开前面运行的跟踪，先选择 SQLServer跟踪表，激活 ConnecttoSQLServer对话框，从中选择服务器，在’卜一个对话框中，选择跟踪表，在“指定工作负荷”页上，在 SPecifyWorkl。ad的高级选项中，设置优化向导如下:首先去掉默认的查询限制，然后更改 Maximumspaeeforthe recollunended(MB)，将推荐的最大存储空间由默认的IMB改为10MB。下一个屏幕提供了可以优化的表，对经常使用的表运行该向导，然后单击Next， sQLserver2000 就开始处理数据了。处理完毕，屏幕上显示了一个建议的索引列表，接着在最后一个页面中执行上述建议，即按向导分析的最优方式进行了索引优化。另外， SQLServer2000中的索引有聚集索引和非聚集索引两种类型，使用 SQLServer2000中的 DBCCINDEXDEFRAG语句，去除表或视图上聚集索引和非聚集索引的碎片，提高索弓!扫描的性能。再则，由于 SQLServer处理数字比处理文木速度快得多，建立索引时，外键的数据类型均采用整型数据。 7.1.2优化在 SQLServer2000中对儿童预防接种信息管理系统的 AnalysiSServi。es 进行动态优化时，需要做的大多为一些选择，如选择存储模式、选择聚集程度、选择分区依据等。通过对三种存储模式查询性能的比较可明显看出，当需要请示叶子级数据进行查询时，响应速度最快的存储模式是MOLAP模式。在4.3，2中己经说明，为了节省存储空间，本系统的聚集程度较低，因而在进行决策时需经常查询叶子级数据，所以选择MOLAP存储模式。聚集程度的值越小，聚集程度越差，查询速度越慢，但占用的存储空间也越小。相反，聚集程度的值越大，聚集程度越高，查询速度就越快，但占用的空间也就越大，查询的灵活性也就越差。为节省存储空间，并提高查询的灵活性，本系统的聚集程度选择为40ry0。分区是数据仓库设计中的重要环节，好的分区一ti]’大大提高系统的分析速度，根据5.2.4节分析，选择系统的第一分区矢量为时间。 68 7.1.3儿童预防接种信息管理系统的查询优化由于儿童预防接种信息管理系统的数据量较大，全表扫描一次需要较长时问，为减少查询时间，需对查询策略进行优化。儿童预防接种信息管理系统查询优化的重点是减少数据库服务器每次查询时从磁盘中读取的数据量，并在读取过程中采用顺序读灭。为减少数据库服务器从磁盘中读取的数据量，本系统采用了临时表，将查询中需要反复访问的数据作为一个子集，放在按主键排序的临时文件中，因临时文件中的行比主表中的少得多，且物理顺序就是所要求的顺序，减少了磁盘1/0操作，提高了读取速度。 SQLServer2000在查询语句中遇到通配符时，要临时确定目标表中包含的字段，延长查询时间。为了提高查询速度，本系统在查询时未使用通配符。 7.1.4儿童预防接种信息管理系统数据立方的优化儿童预防接种信息管理系统数据立方架构的好坏，将直接影响系统占用空间的大小、查询速度的快慢。在设计本系统的数据立方时，我从维的层数、维的数量、成员关键字等方面进行了综合考虑。首先，在设计系统立方时，减少了维中不必要的层次，节省了存储空间，客户机和服务器上所需的工作内存也跟着减少，处理立方、更新维或更新立方所需的时间也相应减少。其次，减少了不必要的维，从而减少了立方的规模，节省了存储空间，进而减少了聚合所需的时间和空间。再则，较多地使用了短整型类型的成员关键字，也减少了存储空间的占用，提高了查询速度。儿童预防接种信息管理系统度量值的类型也是要考虑的重要因素之一，因为在包含数百万行的事实数据表中，即使每条记录节省两个字节，合起来也能显著减少表的大小以及处理表所需的时间。本系统确定度量值类型的原则是，在足够包含汇总值的前提下，尽量使用与度量值数据一致的最小数据类型。 7， 1.5儿童预防接种信息管理系统中的硬盘优化硬盘的驱动结构都是机械部件，与电子器件相比，运行速度极慢，已成为计算机系统中最大的瓶颈。硬盘的优化即提高硬盘的读写速度、容量、容错能力、自恢复能力等。为达此目的，本系统采用了 RAID(RedundantArray。fndependentDrives)，即冗余独立磁盘阵列，它能提供重要的数据冗余，防止硬盘失败，且在容量、成本、速度和容错之间提供了平衡。因为软件RAID的性能比硬件RAID低，所以儿童预防接种信息管理系统数据仓库使用了硬件RAID，且采用了板载缓存机制，从而利用缓存收集来自 sQLserver 的较小的工/0请求，并排列这些请求，然后将它们与其他1/0请求合成一批较大的并且有可能是顺序的I/0请求，发送到硬盘驱动器。该机制显著增强了儿童预防接种信息管理系统中磁盘子系统的1/0处理能力，产生了更大的工 /0吞吐量。为达到既高速又安全的目的，本系统的硬盘选用RAID10结构，既保证了最佳的容错和读写性能，又具有较大的磁盘容量。 JL童预防接种信息管理系统中数据载入的最优化加速数据载入有许多技巧和方法，其中包括选择合适的数据库恢复模型、选择合适的批量装载方式、建立聚集索引等。儿童预防接种信息管理系统数据仓库在执行初始数据装载时，选择在 “简单”恢复模型下运行，在增量数据装载时，则选用“大容量日志记录”恢复模型。因为，在系统运行过程中执行的操作大多是只读的，数据丢失的一可能性极小，而大容量日志记录恢复模型对大规模的复制操作能提供最佳的性能和最少的日志使用空间。批量拷贝的API函数是最受编程人员欢迎的。儿童预防接种信息管理系统中选用API函数实现数据的批量拷贝，出于装载失败时数据回滚的需要，本系统选择批量拷贝的数据量为1000行。儿童预防接种信息管理系统通过在表上建立聚集索引的方法解决并行载入数据时引起的混杂。建立聚集索引后，数据被读入时按键值的顺序排列，并顺序写出，降低了混杂的程度。 7.2儿童预防接种信息管理系统的维护儿童预防接种信息管理系统的数据仓库在运行过程中需要不间断地维护，否则随着数据量的增大，性能会变得越来越差。本系统用 SQLServerAgent实现系统 70 的不间断维护，并具体负责处理重复任务及处理异常错误，如:定时执行作业监视 SQLServer，在发生错误时激发警报，运行管理员定义的复制任务等。 7.2.儿童预防接种信息管理系统维护的调度管理由图7一!可见，儿童预防接种信息管理系统的维护主要由 SQLServerAgent 实现，并通过 SQLServer将对系统维护的定义存储在msdb数据库中。在启动 SQLServerAgent服务时，系统首先查询数据库中的系统表，确定启用哪些作业和警报。 SQLServer将所有发生的事件传递给 SQLServer代理程序， SQLServer 代理程序在规定的调度时间执行作业。当出现意外时，也有 sQLserverAgent负责报警，或向 SQLServer发送SQL邮件请求，或向WindowS发送 netSend命令。在5.3中已创建了DTS包，并将其保存到 MicrosoftSQLServermsdb数据库中，存入本地服务器。系统中使用 SQLServer代理调度在DTS设计器中创建的 DTS包，并将己调度的包作为作业执行，从而实现数据的定时更新。下面主要探讨系统维护中的数据备份、日志维护及系统安全性。 7.2.2儿童预防接种信息管理系统数据的备份为避免意外而导致数据丢失，需要经常对儿童预防接种信息管理系统数据仓库中的数据进行备份，常用的备份方式有数据库完全备份、事务日志备份、差异数据库备份、文件和文件组备份四种。因事务日志备份只能与完全恢复模型或大容量日志记录恢复模型一起使用，而儿童预防接种信息管理系统使用的是大容量日志记录恢复模型，所以采用事务日志备份方式。本系统使用关键字BACKUP和RESTORE对日志进行备份和恢复，使用BACKUP LOG和 RESTORELOG对事务日志进行备份和恢复。如将SAMT数据库备份到 MySAMTLog下，使用 BACKUPLOGSATMToMySATMLog语句，若需进行恢复，则使用 RESTORELOGSATMFROMMySATML语句完成。儿童预防接种信息管理系统日志的维护在儿童预防接种信息管理系统使用事务日志备份方法对数据进行备份的过程中，为了减少日志文件及分发服务器占用的磁盘空间，需对事务日志进行不间断地维护，主要包括及时截断不再需要的日志并将日志历史和保持期最小化。儿童预防接种信息管理系统的事务日志是对数据库执行的所有事务的一系列记录，如不及时删除无用的日志记录，随着事务的执行，逻辑日志就会一直增长，直到充满容纳日志文件的所有可用空间。日志的截断应在事务成功提交后完成，若备份失败，则恢复事务，日志回滚到原来的状态。为及时截断不再需要的日志儿童预防接种信息管理系统按下述方法配置了工作流的属性:同时选中“有事务时联接”、“成功完成此步骤时提交事务”、“失败时回滚事务”三个复选框，从而及时提交事务日志、截断不活动部分，若提交失败，系统则自动回滚。将儿童预防接种信息管理系统的日志历史和保持期最小化，可减少服务器上使用的磁盘空间。本系统使用数据库维护计划向导定义日志生成频率、备份与还原操作之间的时间等，从而确定日志的保持期。设置如下:在“复制/装载的频率” 框中将目的服务器从源服务器备份和还原事务日志的频率设为10分钟，维持“装载延迟”框中的默认值0分钟不变，在“文件保持期”框中指定事务日志在删除之前存留的时问为7天，在‘旧志传送闽值”对话框中，设置“备份警报闭值” 为24小时，从而使距离源服务器上一次事务日志备份时间的最长期限为24小时， 72 一旦超过此值，监视服务器将生成警报。在“不同步警报闭值”框中，指定源服务器上最近一次事务日志备份与目的服务器最近一次事务日志还原之间的时间间隔为5分钟，一旦时一间超过此指定闽值，监视服务器也生成警报。通过这些设置，使日志历史和保持期在满足需要的情况下维持最小值，从而节省存储空间。 7.3儿童预防接种信息管理系统的安全性儿童预防接种信息管理系统数据仓库中保存了与济南市儿童预防接种门诊和大量的疾病和儿童信息有关的最有用的机密信息，保证这些信息的安全，避免非法人员浏览和修改是系统设计一要考虑的另一重要内容。儿童预防接种信息管理系统建立安全机制的过程包括创建用户，将用户加入某个组，然后为这些组分配角色等过程，从而给不同组的用户赋一予不同的数据访问权限。儿童预防接种信息管理系统数据仓库中的数据是面向主题的，在实际工作中，每一个主题对应个业务范围，在数据仓库中则对应一个数据立方。为让不同处室的人员查询不同的数据立方，采用了将同一处室人员作为一个用户组的方法，使同一处室的人员拥有相同的访问权限，不同处室的人员具有不同的访问权限。过程如下:首先为所有使用者分别建立用户，接着创建域组来组织用户。同一门诊的人员放在同一域组中，不同门诊的人放在不同的域组中。第三步是在Analysis Services服务器上为每个域组创建一个本地组，然后将域组作为本地组的惟一成员。最后将本地组映射到 AnalysiSServiCeS服务器上的数据库的角色上。创建了本地组且映射到内部的安全角色后，网络管理员通过增加或删除域组中的人员来管理对立方中数据的访问权限。在儿童预防接种信息管理系统中，成功的注册并不允许用户随意访问数据仓库中的所有数据，必须得到网络管理员的许可才能访问。许可的办法是由网络管理员为他们创建数据库角色，方法如下:右击 DatabaseRole:图标，单击Manager RoleS，在出现的数据库角色管理器 (DatabaseRoleManager)界面中单击New按钮，新建一个所需的数据库角色。为了赋予一个数据库角色访问某个(或某组)立方的权限，网络管理员在 Create(或 Edit)aDatabaseRole对话框中，单击CubeS选项卡，选中那些该角色可以访问的立方的复选框。在 AnalysiSManager中，右击 CubeRoleS图标， 73 在弹出的菜单中单击ManageR。les，然后单击角色名前的复选框，使此处选中的角色具有访问刚才选中的立方的权限。因卫生局的领导要把握全局的接种信息，将他们作为一个用户组，并为他们选中所有的数据立方，以便各位领导可访问所有的数据立方。第八章儿童预防接种信息管理系统评价本文综合利用了数据仓库技术和OLAP技术，建立了儿童预防接种信息的多维数据模型，并对其进行了OLAP设计。利用该系统，使领导和专业人员能对长期积累的、大量的、繁杂的历史数据进行多角度、多方面的综合分析，从中挖掘出想要的知识，为他们的决策服务。为了提高分析查询的速度，本系统采取了多方面的优化措施;为使系统长期稳定运行，又对系统的长期维护方案进行了设计。随着数据仓库技术和OLAP技术的发展，该系统将会更快速、更有效，做出的决策在实际工作中将会发挥更为重要的作用。本课题是济南市儿童预防接种管理信息系统的一部分。在该课题中，研究了数据仓库的基本理论，查阅了大量相关资料，并根据数据仓库技术、 OLAP技术的原理，经过认真的思考和大胆的创新，在反复与儿童预防接种点的同志们交流的基础上，形成了本论文。本课题主要的创新点如下: l、应用领域的突破:前人研究的数据仓库，大都应用在零售店、销售商、企业产品的管理与销售中，而本系统将数据仓库理论应用到了儿童预防接种信息中。到目前为止还未见到与此类似的应用研究。 2、概念模型的突破:以前数据仓库的概念模型大都沿用关系数据库的ER模型，也有的使用信息包图，但他们都不能很好地反映维度之间的关系。本文提出了多维概念模型的概念，将数据的度量值放在概念模型的中央，而概念模型的四周是观察这些数据的维度，从而可以从不同的角度观察立方中的数据，方便了决策人员的分析和换位思考。 3、数据分析手段的突破:前人分析数据仓库中的数据，大都使用SQL、TraCt SQL语言，而我对MDX语言进行了深入的研究，并在本课题中进行了广泛的应用。本论文中的数据分析全部使用了MDX语句，因MDX语句是多维表达式，与多维模型相配合，简化了分析过程，提高了分析效率。 4、数据接口的突破:前人使用的数据接口，大都为 DAO(DataACceSSobjeCt)、 RDO(RemoteDataObjeCt)、 ADO(ACtiveDataObjeet)和 ODBC(openKataBase Conneetivity)以及 OLEDB，而本论文采用了 ADOMD接口技术。 ADOMD是对ADO 的扩展，是专门支持多维数据源的。在 ADOMD接口中，OLAP的查询语言是MDX，从而使多维分析和多维接口无缝地接合在一起。、设计了整个系统的结构、分析方案、系统的优化措施及长期的维护方案。、建立了接种信息多维数据的概念模型、逻辑模型，为系统的实现奠定了基 7、设计了OLAP分析模型，并用MDX多维表达式配合VB编程实现。本文使用 AnalysiSServiceS的目的是将数据转化为所需的知识，并向决策者提供结论性的、高级别的重要的状态信息。ADOMD、MDx以及OLAP 组件就像智力拼图，拼出了完美的解决方案，让决策者的决策更科学、更快速、更有事实根据。本课题历时一年多，系统的理论基础己经具备，并及时吸收了较新的研究成果，建立了系统的数据模型和分析模型。本系统的不足之处:由于时间仓促，再加上个人水平有限，对济南市儿童预防接种的具体信息掌握不细，只做了一些常规分析所需的功能，分析还需进一步完第九章结论和展望结论本课题是结合济南市儿童预防接种管理系统建立的。在该课题中，本人研究了多维立方体的基本理论，查阅了大量相关资料，并根据多维立方体技术、OLAP技术的原理，经过认真的思索和创新，在反复与计划免疫人员交流的基础上，形成了本论文。本论文主要的创新点有以下几个方面: l、应用领域的突破:以前研究的多维立方体，大多应用于商业、信息产业。而本系统将多维立方体理论应用到了儿童预防接种信息管理与分析中。 2、建立了儿童预防接种信息多维数据的模型、逻辑模型，为儿童预防接种信息的分析奠定了基础。 9.2展望本系统的不足之处:由于时间仓促，未能建立市级的数据平台将数据收集起来，很多工作还停留在理论阶段。数据挖掘模型还很不成熟，还不能进行深层次挖掘。在未来的2一3年中，希望通过此个案化的数据平台的不断完善，在下一步的工作中探索尝试结合国家现有的《疾病监测信息报告管理系统》、《突发公共卫生事件报告管理信息系统》、((出生登记管理信息系统))和((传染病自动预警信息系统》建立一个新的数据挖据平台对疾病的预警从个案化的角度，地域群体的角度做进一步研究。传染病的预替传染病的预警将是本研究的未来研究方向，将此项研究作为开端和基础，最终实现“以儿童预防接种系统为基础，疾病监测信息报告系统和出生登记信息系统为辅助，实现兼顾群体和个案化的疾病预警数据挖掘平台”。我国目前的传染病预警情况，中国疾病预防控制中心的邢慧娴在 2007年9月的《中华预防医学杂志》有一篇综述《我国传染病的预测预警现状》是目前我国疾病预警方面的最新资料。木资料显示我国目前的疾病预警，按方法分两大类: 定性预测方法(主要有流行控制图法、比数图法、模糊数学理论、马尔可夫链预测法等。) 定量预测方法(有灰色动态模型、回归预测模型、Box一JenkinS模型、多元回归模型、逐步判别模型、小波模型、综合预测模型) 按方式分: 直接预警:直接预警是根据传染病的流行特点、严重程度，确定预警指标，一般以一定时间内某局部地区某病的发病数为预警指标。症状监测预警:症状监测也称为症候群(综合征)监测，是指通过连续、系统地收集和分析特定疾病临床症候群发生频率的数据，及时发现疾病在时间和空间上的异常聚集，以期对疾病暴发进行早期探查、预警和快速反应。定性预警:定性预警是指利用一定的预测方法，对传染病的流行趋势进行定性的判断:上升或下降，对判断为上升幅度超过某预警水平的传染病提出预警综述中共列举相关论文50篇，方法10多种。但不同的方法适用不同的疾病，有的需要大量监测数据，有的模型不能对局部地区出现的疫情做出灵敏的预警。文章最后提出三大问题: l)每种传染病都有自己的流行周期和传染特点，受季节，年龄等多种因素的影响。一种模型和方法可能只适用于某种病。或者数据不易取得，需要大量的监测资料。 2)理论研究多，实际应用少。 3)缺乏长期、系统的研究。分析此篇论文不难发现，现在的疾病预警缺乏足够的定量研究，及时性准确性不好，各种方法和模型不能适用于所有传染病。通过济南市儿童预防接种管理系统的建立，本人有了进一步的思路就是利用接种管理系统个案化的优势结合《疾病监测信息报告管理系统》、《突发公共卫生事件报告管理信息系统》、《出生登记管理信息系统》建立一个新的数据仓库，实现以针对个人为基础的预警，从而更加准确的锁定人群特征。实现针对特点年龄段，特点地区的流行病预警。这种预警不但准确度高而且针对性强。摆脱过去那种有疫情就全体普遍接种的情况。 78 9.2.2其它辅助平台介绍与年度计划监测信息报告管理系统介绍国家各类传染病都实现了网络直报，并根据权限提供数据下载。其报告卡如下: 中华人民共和国传染病报债卡(普通申报流程)返回报告单位报告卡编号}晓存后由系统生成〕身份证号，脚厂“，男产:乡出生日朋)一年厂月厂日格式: 翰单位厂“:岁广2月广。天性日不瀚年龄产愚老工作单位}—一—— 2003年01月01日联系电话墉崛于厂“本县区。:本市葺它县区产3本有其它地市广;州鳍广:港典台产。外祝省现住地址国标 110101Do 现住详细地址!北京市市辖区东城区中华人民共和国传染编报告卡僧通申报流程)返回报告单位100000000台计习报告卡编号!“呆存后由系统生成〕翔愚者姓名! 愚几球长姓名身份证号水性别出生日期年龄单位东生日不详值年龄愚者工作单位联系电话、献属于厂‘互本县区户2本币其它县区广3本省其它地市广几算他省价5港澳石广已外纬现住地址国标卜川欢万书辖二习币省县现住地址国标z一 010100 现住详删址!北巅市辖区东腿””-一 *职业本系统可以选择审核日期，或发病日期查询，可以选择任意时间段、是否按发病率进行统计、现住址类型、诊断类型、疾病分类、疾病病种、统计列形式和图形显示方式等条件进行综合查询。并实现部分统计功能: 加肠拜泪3尔阳至2005勒:月2，日发病数I死亡数实时统计图穿角稼日期统计绷树问}年统计衷习!潮习年薰一称生公异母亲姓名国籍产次母亲尸藉地址父亲姓名国鹅父亲身份证号矛级爪共爪价超人一艘葬 t6St 中国 1 山东省济南市历下区千佛山街遣办事处中国民族汉族您是否现住地是出生日期民族其它联系电话区号) 鞍公班熟扩灯典麦粼;获奎茸东边鲤别到、塌卡片编号 370102DD020D7D0003 份娩方式自然分娩 ’出生结局活产直体重 34D0克比孕周第40周一出生地祥谊)山东省济南市历下区解放路备注接生机构名称灾值卡人hhh 银告地区山东省济有市历下区，录入地区山东省济南市历下区网路报告人历下区街道办事处出生医学证明编号性份娩地点一出生缺陷身长新生儿姓名一出生例1间健康状况翁套浪井- D01 县级及以上医院无 30厘米 20D7年12月ID日1田寸19分良好喂否补报否，摘卡日期200不12一12 报告单位:历下区疾病预防技制中心录入单位:历下区疾病预防控制中心网络报告时间2D07年12月12日14时娜嘿J簇料热辉月{丝! 图9一6出生登记管理信息系统介绍报告卡年度计划内容 2008年，建立济南市的数据平台和数据库，按国家要求建立数据工作流程 2008年，利用已有的数据对建立的模型进行验证和修改，并结合医学知识和流行病统计知识开始在应用和预测领域实现数据挖掘。 2009年初，用循环圆形方法修改模型的参数，结合《疾病监测信息报告管理系统))、《突发公共卫生事件报告管理信息系统))、《出生登记管理信息系统》和《传染病自动预警信息系统》建立更完善的数据仓库，真正实现系统的数据挖掘。对疾病做到预警，对发病地区做到提供有价值的资料。 2009年底，实现“以儿童预防接种系统为基础，疾病监测信息报告系统和出生登记信息系统为辅助，实现兼顾群体和个案化的疾病预警数据挖掘平台”。文中涉及的英文缩写词对应的全称及其汉语意思一览表缩写词对应的全称汉语意思 COM ThirdNormalForm第三范式 AetivexDataobjeet活动数据对象 AetiveXDataObjectSMults一Dimensional活动数据对象(多维) ApplyProgramInterfaee应用程序接口 eomponentobjeetModel组件对象模型 eentralProeessingunit中央处理一单元 Client/Server客户/服务器 DataAeeesSobjeet数据访问对象 DataBase数据库 DataBaseManagementSystem数据库管理系统 DeeisionSupportobjeet决策支持对象 DeeisionSupportSystem决策支持系统 DataTransformationServieeS数据转换服务 DataWarehouse数据仓库 ExtraetTransformLoad数据抽取转换装载 GraphUserInterfaee图形用户接口 Hybridon一 LineAnalyticalProeessing混合型联机分析处理 Input/Output输入/输出 JavaDataBaseConneetionJava数据库连接 LogSequenceNumber日志记录序列号 Multi一 DimensionDataBase多维数据库 Multi一 Dimensionexpression多维表达式 MicrosoftManagementConsole管理控制台 Mu1ti一 D1mensionalOn一 LineAnalyticalProceSSing多维联机分析 ooBeopenDataBaseConneetivity开放数据库连接 OLAPOn一 LineAnalytiCalProeessing联机分析处理 84 OLEDBobjeetLinkingEmbeddingDataBase 入数据库对象的链接和嵌 OLTP OnLineTransae七 ionProeessing RAID RedundantArrayofIndePendentDrives RAID RedundantArrayofInexPensiveDisk ROLAPRelationalOn一 LineAnalytiealProeessing StrueturalQueryLanguage Un1versalDataAeeess VB VisualBasie 联机事务处理冗余独立磁盘阵列廉价冗余磁盘阵列关系OLAP 结构化查询语言通用数据访问一种可视化的编程语言「l]萨师煊王珊.数据库系统概论.高等教育出版社，2004.07. 「2」王珊陈红编著.数据库系统原理教程.清华大学出版社，2005.08. 「3]丁宝康董健全编著.数据库实用教程.清华大学出版社，2004.06. [4〕张莉王强赵文董莉.SQLServer数据库原理及应用教程.清华大学出版社，2003.09. [5〕 IntroduetiontoDataMiningandKnowledgeDiseovery(Third Edition).TwoCrows，Corporation，1999 [6〕Hirosh认risawa， TakashiTomii.DesignofMultimediaDatabaseanda QueryLanguageforVideoImageData.DivisionofEleetriealand ComPuterEngineering， YokohamaNationalUniversity. 「7〕范明孟小峰.数据挖掘概念与技术.机械工业出版社 [8〕Ji二eiHan，MiehelineKamber等著.数据挖掘概念与技术.机械工业出版社， 2007.3. 「9」刘同明等著.数据挖掘技术及其应用.国防工业出版社， 2001.9. 「10〕徐洁磐，马玉书，范明.知识库系统导论.科学出版社，2000 「11〕董琳等译，数据挖掘:实用机器学习技术(原书第2版)，机械工业出版社(2006) 〔 12)IanH.Witten， EibeFrank， DataMining:PraeticalMaehineLearning ToolsandTeehniques， SeeondEdition， MorganKaufmann，2005 [13]T.Hastie，R.Tibshirani，J.H.Friedman， TheElementSof StatistiealLearning:DataMining， Inferenee， andPredietion，SPringer， 2003 「14」范明等译，统计学习基础:数据挖掘、推理与预测，电子工业出版社 2004 [15〕 DavidJ.Hand， HeikkiMannila， PadhraiCSmyth， PrinciplesofData Mining， TheMITPress，2001 〔16〕张银奎等译，数据挖掘原理，机械工业出版社，2003 〔17]袁卫等译，数据挖掘:客户关系管理的科学与技术，中国财政经济出版社， 2004 [18]01iviaParrRud， DataMiningCookbook:ModelingDatafor Marketing， RiskandCustomerRelationshiPManagement，Wiley，2000 「19]朱扬勇等译，数据挖掘实践，机械工业出版社，2003 「2川邝祝芳等译，数据挖掘原理与应用 :SQLServer2005数据库，清华大学出版社，2007 「21」闪四清等译，数据挖掘:概念、模型、方法和算法，清华大学出版社，2003 [22〕翁敬农译，数据挖掘教程，清华大学出版社，2003 「23〕袁方等译，实用数据挖掘，电子工业出版社，2004 「24〕贺奇等译，构建面向CRM的数据挖掘应用，人民邮电出版社， 2001 「25〕许建华等译，统计学习理论，电子工业出版社，2004 「26〕张学工译，统计学习理论的本质，清华大学出版社，2004 「27」武森等著，数据仓库与数据挖掘，冶金工业出版社，2003 「25]朱明编著，数据挖掘，中国科学技术大学出版社，2002 86 [29」林杰斌等编著，数据挖掘与OLAP:理论与实务，清华人学出版社，2003 「30]范明，孟小峰等译，数据挖掘与技术，机械工业出版社，2001 L31」邵峰晶等编著，数据挖掘原理与算法，中国水利水电出版社， 2003 「32」陈文伟等编著，数据仓库与数据挖掘，人民邮电出版社，2004 「33〕陈京民等编著，数据仓库与数据挖掘技术，电子工业出版社， 2002 「34」刘同明等编著，数据挖掘技术及其应用，国防工业出版社，2001 「 35]WEKA中文站，相关数据挖掘电子资料，WEKA中文站2006一2008 [36」胡世雄，邢慧娴我国传染病的预测预警现状中华流行病学2007年9月「37」杨维中，邢慧娴，王汉章，等，七种传染病控制图法预警技术研究.中华流行病学杂志，2004，25:10:39一1041. 「38〕洪荣涛，许龙善，严延生，等.试述突发公共卫生事件的监测与预警.中国公共卫生管理，2005，21:106一108. 「39〕李炳烈，叶世南.从SARS疫情论传染病监测信息化的趋势.疾病监测，2004 19:150一151. 「40]杨维中，祖荣强.突发公共卫生事件预警.中华预防医学杂志， 2005，39: 427一429. 「41」吴小清，丁筱竹.应用灰色模型预测流脑发病率.江苏预防医学，2000，H:35- 36. [42)彭志勇、孟凡强传染病自动预警信息系统2008 本文是在导师悉心指导下完成的。承蒙老师的亲切关怀和精心指导，虽然有繁忙的工作，但仍抽出时间给予我学术上的指导和帮助，特别是给我提供了思路和方向，使我从中获益不浅。老师对学生认真负责的态度、严谨的科学研究方法、敏锐的学术洞察力、勤勉的工作作风以及勇于创新、勇于开拓的精神是我永远学习的榜样。在此，老师致以深深的敬意和由衷的感谢。还要感谢我的父母，他们在生活上给予我很大的支持和鼓励，是他们给予我努力学习的信心和力量。最后，感谢所有关心我、支持我和帮助过我的老师、同学、朋友和亲人。在这里，我仅用一句话来表明我无法言语的心情:感谢你们!

本文档为【儿童预防接种信息管理系统与数据挖掘】，请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑，图片更改请在作品中右键图片并更换，文字修改请直接点击文字进行修改，也可以新增和删除文档中的内容。

儿童预防接种信息管理系统与数据挖掘

热门搜索

历史搜索