为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > 档案数据库多版本管理方案

档案数据库多版本管理方案

2018-03-15 26页 doc 64KB 32阅读

用户头像

is_654168

暂无简介

举报
档案数据库多版本管理方案档案数据库多版本管理方案 硕士学位论文 THESIS OF MASTER DEGREE 论文题目: 档案数据库多版本管理方案 (英文): A Study of Multi-version Management In Archive Database System 作 者: 刘艳芳 指导教师: 杜小勇2008 年5 月 17 日 论文题目: (中文)档案数据库多版本管理方案 (外文)A Study of Multi-version Management In Archive Database System 所在院...
档案数据库多版本管理方案
档案数据库多版本管理 硕士学位论文 THESIS OF MASTER DEGREE 论文题目: 档案数据库多版本管理方案 (英文): A Study of Multi-version Management In Archive Database System 作 者: 刘艳芳 指导教师: 杜小勇2008 年5 月 17 日 论文题目: (中文)档案数据库多版本管理方案 (外文)A Study of Multi-version Management In Archive Database System 所在院、系、所 : 信息学院专专业、名、称 : 计算机软件与理论指专导专教专师姓专名、职专称 : 杜小勇 教授 论文主题词: 多版本管理 并发控制 历史来源查询 学专习专期专限 :2005 年 9月至 2008 年 6 月论文提交时间: 2008-05-05 独 创 性 声 明 本人郑重声明:所呈交的论文是我个人在导师指导下进行的研 究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致 谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,也 不包含为获得中国人民大学或其他教育机构的学位或证书所使用过 的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示了谢意。 签名: 刘艳芳日期: 2008-5-17 关于论文使用授权的说明 本人完全了解中国人民大学有关保留、使用学位论文的规定, 即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复 制手段保存论文。签名: 刘艳芳导师签名:杜小勇 日期: 2008-5-17 摘要 存储技术的迅速发展使得将数据对象全生命周期的状态变化纳入到数据管 理的范畴越来越成为可能。数据的全生命周期管理要求掌握和理解数据的产生、 转换、更新等过程,这也是数据起源(data provenance)所要解决的问题。这样 一种将数据作为“档案”对象对待的新的数据库形态已经开始出现,我们称之 为档案数据库。 随着办公自动化、电子政务的进一步深入和高新技术的推广应用,处理事 务过程中产生了丰富的电子文件,电子文件逐渐成为公文文件的主流。文件从 产生到归档处理可以不再使用繁琐的纸张一步一步完成,而是由电子计算机和 现代通信技术产生大量的电子文件,通过网络联接实现电子档案资源共享和高 速传递,从而使档案资源得到更广泛地开发和利用。由于电子文件与纸质文件 有许多不同之处,电子文件档案管理和纸质档案管理也有很大的区别。 办公自动化、电子政务等领域中所谓档案管理指的是电子文件的起草、签 发、催办、归档等活动。档案的管理具有明显的迭加特征,即某些功能如捕获、 归档、著录、鉴定等不能在一个时间点一次性的完成,需要多次执行,不断补 充、积累,直至昀终完成,具有明显的迭加特征 电子文件档案管理是一种全生命周期管理活动,它将所有数据作为“档案” 对象对待,管理数据的生成、更新等过程,并保存数据的所有版本。这也就是 数据起源问题研究,即关注数据的生成及转换历史,并支持历史数据的查询。 由于电子文件档案管理具有迭加特征,并行修改中必须确保每个用户不会无意 地覆盖另一个用户的工作,因此每次修改都会生成新版本保存修改结果,由此 引发了数据的多版本管理以及并发控制问题。 本文主要以电子文件档案管理系统为背景,对档案数据库中的多版本问题 进行了研究。对多版本管理、并发控制、历史查询等关键问题和相关理论作了 深入的探讨和分析,然后考察了现有的版本管理工具和版本管理模型,并结 合 档案管理的实际需求,提出了档案数据库多版本管理方案。本文对传统 DBMS 作了部分修改,提供以下几方面的支持以满足档案数据库的需要。 (一)允许多个用户同时对一个档案进行修改操作,比如不同用户同时著 录和鉴定等。 (二)记录档案的变更,保存档案的各个版本。 (三)支持数据起源查询,包括数据历史信息和更新情况的查询。 以上方面可以归结为档案数据的多版本问题。并行修改和数据起源查询要 求系统存储和管理档案数据的多个版本。现在的解决方法通常是在应用层完成, 但是有诸多不足,且没有进一步的优化空间。本文提出了一个基于 DBMS的解 决方案,通过修改传统关系 DBMS的实现机制,希望能够满足档案管理的特殊 需求。 这个方案从以下几方面进行展开陈述。第一,对于数据的多版本管理,本 文增加了修订和合并两种操作,并定义了基线版本和派生版本的概念,在此基 础上提出了多版本管理策略。第二,修改原有的多版本并发控制机制来支持并 行修改,并且能够增大并发度。第三,了一系列历史查询接口,支持数据 起源查询,可以查询变更情况和任何历史版本的信息。 关键词:多版本管理 基线版本 派生版本 多版本并发控制 历史来源查询 Abstract The rapid development of storage technology will make the entire life cycle state of data object to change into the context of data management, and it has become increasingly likely. Data life cycle management requires grasping and understanding the data generation, conversion, updating processes, which are also the Data Provenance research to be resolved. Such management of data as an "archive file" in a database has begun to appear as a new database form research, which we call the archive databaseWith the further promotion of OA system and e-government to the in-depth and high-tech applications, business process produces a large number of electronic documents, which have gradually become the mainstream of government documentsSo we have to deal with documents created by computers and modern communication technology and can no longer use the cumbersome paper to complete step by step. With the internet connection, electronic file resources can be shared by many users and transmitted with high speed, so that the more extensive file resources can have wider development and utilization. As electronic document and paper document have many differences, the managements of both have great distinctionIn areas such as OA, e-government, the so-called electronic file management is about the drafting, issuing, archiving and other activities. File management has obvious superposition characteristics, which means that some operations to file such as the capturing, archiving, recording, the identification can’t be completed one-off point in one time. It is usually needed to do over and over again until the end, and this feature also means that some operations are in parallelElectronic file management is a full life cycle management activity; it treats all data as an "archive file" object and manages generation and all updating processes, finally save all versions of the data formed by modification. This is also the focus of Data Provenance research, which concerns the formation and history of conversion, and support query on historical data. Because of the superposition features, several users act in the same period, so we must ensure that each user will not inadvertently lay over the result of other users, each must generate a new amended version to save the change, which triggers the data multi-version management and concurrency control issuesWith electronic document management system as the background, this paper discusses the multi-version issue in archive database. And in-depth study theories such as multi-version control management, concurrency control, and query on historic data also come to our attention. By analyzing the actual demand for archive file, taking into account the existing version management tools and version management model in supplement, we propose a multi-version mechanism of the archive database, which are illustrated in detail in later chapters. This design is to do partial revision to the traditional DBMS implementation, and provides the following aspects of support to meet the needs of the archive databasea Allow more than one user to do modification transactions to a file at the same time, such as recording and identifying. b Record all the changes to a file, save all versions of the file. c Provide query for data provenance, including historical data information and transformation All of the above can be summarized up as multi-version issue which is aroused by parallel modifications and requirements of query on data origin. Now the general solution is at application layer, but it has some shortage. So by revision to the relational DBMS kernel, the paper proposes a solution, which is expected to meet the special needs of archive managementThe solution includes the following three aspects. First, multi-version storage and management, we add two special operations which are revise and merge, which are new manipulation definitions to archive object, and also present two concepts about version, which are baseline version and derived version, they are used to denote the different version category. Second, we need to modify the existing multi-version concurrency control to support the parallel modification; it can also increase the concurrency. Third, we design programme interfaces for query on historic data, which can find any historical version of the dataKeywords: multi-version management, baseline version, derived version,multi-version concurrency control, data provenance query 目录 第 1章 绪论 1 1.1 研究背景和意义. 1 1.1.1 传统档案管理. 2 1.1.2 电子文件档案管理3 1.2 电子文件档案管理相关研究5 1.2.1 电子文件管理理论5 1.2.2 文件、档案一体化管理的定义 6 1.3 档案管理中多版本问题的提出. 7 1.4 研究的内容和目标 8 1.5 论文组织. 8 第 2章 现有方案的不足和档案数据库多版本管理方案的提出..11 2.1 传统关系数据库存储机制..11 2.2 Oracle SnapArchiving 数据库历史数据归档解决方案. 12 2.3 应用层解决方案的不足13 2.3.1 流水线版本维护方法14 2.3.2 时间戳版本维护方法15 2.4 档案数据库多版本管理方案的提出 15 第 3章 多版本存储和管理. 17 3.1 档案管理操作和档案版本定义17 3.1.1 修订与合并操作. 17 3.1.2 档案版本定义18 3.2 版本管理原理 19 3.3 混合多版本管理策略 20 3.4 版本管理实现 21 3.5 版本管理中的权限分配22 第 4章 并发控制24 4.1 并发控制技术概述. 24 4.2 并发控制的基本方法 25 4.2.1 封锁方法. 25 4.2.2 时间戳方法 26 4.3 档案数据库中多版本并发控制策略 27 第 5章 数据起源查询 29 5.1 数据溯源研究 29 5.2 数据起源查询 30 5.3 历史数据管理 31 第 6章 原型系统设计与实现 33 6.1 多版本并发控制详解 35 6.2 元组多版本管理36 6.2.1 关键数据结构37 6.2.2 需要修改的主要函数38 6.2.3 新增的函数??修订(revise)和合并(merge)39 6.3 多用户并发修改41 6.3.1 关键数据结构41 6.4 数据起源查询 43 6.4.1 关键数据结构43 6.4.2 重要的查询函数. 43 6.4.3 历史查询 SQL. 44 6.5 本章小结45 第 7章 结束语 46 7.1 创新和贡献. 46 7.2 下一步工作. 47 附录 测试48 (一)元组多版本存储管理48 (二)多用户并行修改并发控制 49 (三)历史数据查询接口 50 参考文献 53 致 谢 57 图表索引 图1.1 传统档案管理各项功能之间的线性接替关系 3 图1.2 电子文件管理各环节的平行关系4 图2.2 DSG SnapArchiving 归档体系结构. 12 图2.1 流水线方法记录基金变化信息. 14 图3.1 串行基线版本与基线和派生多版本的比较19 图4.1 修改操作并发执行 27 图4.2 修订操作并发执行 28 图6.1 PostgreSQL 系统结构图 34 图6.2 基于 Read Committed隔离级别的 MVCC. 36 图6.3 HeapTupleFields 关键数据项 37 图6.4 t_infomask 关键数据项. 38 图6.5 LockMethodData 数据项42 图6.6 现有各种锁的使用方法. 42 图6.7 快照 Snapshot 定义43 表3.1 文档权限关系表. 23 表4.1 锁相容矩阵 25 表4.2 档案操作冲突检测表28 表6.1 时间区间查询情况 45 定义 3.1 修订(revise). 17 定义 3.2 合并(merge). 18 定义 3.3 基线版本18 定义 3.4 派生版本18 算法3.1 混合多版本管理算法. 20档案数据库多版本管理方案 第 1章 绪论 档案管理系统经过几十年的发展,已被广泛应用于电子政务、办公自动化、 企业信息管理等多个领域,而档案数据管理一直是档案信息化的研究重点。 目 前由于档案更多是以电子文件的形式存在,其数据管理方式已经与传统管理 方 式很大不同,而是直接由数据库管理系统统一管理。 电子文件档案管理是在传统档案管理的基础上,结合电子文件自身的特点, 采用先进的计算机和网络技术,对电子档案实行文件级的管理,实行自动化、 网络化管理,从而形成高效、快捷的电子文件档案管理模式。此外还成立电 子 文件中心或电子文件档案馆,相对集中地保存和管理电子文件,为电子档案提 供优质、稳定、安全的存储环境和空间,为社会提供真实、准确、快捷的档案 信息服务。 目前电子文件档案管理方式已经脱离了传统的文件系统,直接由数据库管 理系统统一管理。由于档案数据库规模扩大和用户激增,数据处理工作流和数 据共享需要事务机制支持,因此要求支持多用户对档案数据的并发修改。并发 修改会导致数据的多个版本共存,这就引发了档案数据库管理中多版本管理的 问题。另外,档案本来就是记录文件的历史,经常需要查询档案的历史信息, 这也是数据起源研究的一个重要问题,可以称为档案管理中的数据起源查询问 题。 本文详细讨论档案数据库中多版本的形成过程,研究了版本控制基本原理, 针对档案管理上述特点,深入地研究了以下三个方面的内容:(1)多版本存储 和管理;(2)支持多用户并行修改的并发控制策略;(3)数据起源查询。以下 章节基于此出发点提出了档案数据库多版本管理方案的框架以及原型系统设计 与实现。 1.1 研究背景和意义 档案[21],是指过去和现在的国家机构、社会组织以及个人在从事政治、经 1 档案数据库多版本管理方案 济、军事、科学技术、文化等活动中形成的具有保存价值的各种文字、图像、 语音等不同形式的历史记录。档案管理工作从具体业务来说,包括档案的收集、 整理、鉴定、保管、统计、检索、提供利用、编研等工作。其根本宗旨在于维 护档案的本质特性和根本价值,并运用各种方法利用档案信息资源,使档案的 本质特性和根本价值得以充分体现。档案管理过程包含从普通意义的文件到档 案的转变过程。 随着计算机等各种高新技术的迅猛发展,人们经常在网络平台下进行工作、 生活、交流、娱乐,电子信息已渗透到各个应用领域。在这样的信息社会里, 人类的一项主要活动就是利用计算机和网络进行信息的处理、存储、传递和开 发利用。档案是人类活动的重要记录,也作为一类重要的信息资源,需要借助 信息技术手段使其得以准确的收集、科学的管理和高效的利用[24]。档案信息的 化、电子化是企事业现代化管理水平提高的重要标志,能够极大地增强 档 案信息的处理效率,高效归档和检索档案信息,为企事业发展提供信息支持。 办公自动化在各级各类国家机关、社会组织、企业、事业单位中的普及, 电子数据交换EDI、电子商务EC在国内、国际贸易中的应用,使得电子工作 环境Electronic Work Environment日益普遍[26]。作为这些活动的重要记录?? 电子文件档案,这一重要资源需要利用信息技术使其得到充分利用和处理。目 前的档案对象有两大类:1已存在并仍在产生的各类纸质、声音、图像和视频 档案;2人们利用计算机处理各类事务产生的电子文件档案。由于计算机和网 络具有在处理、存储和传递信息方面无法比拟的优势,对于前一类对象,已在 逐步将其电子化,即变成电子档案。对于后者,随着计算机应用和网络的普及, 计算机产生电子文件的速度正在日益加快,电子文件的数量急剧膨胀,其中有 价值的电子文件档案必须以档案的形式保存下来,并得到利用。电子文件档案 的出现和发展时间短,暴露的问题多,所以对电子文件档案的科学管理已成为 一个全球面临的急待解决的重要课题。 1.1.1 传统档案管理 档案是人类活动的真实记录,是认识和把握客观规律的重要依据。借助档 案,我们可以较好地了解过去,把握现在,预见未来。随着信息技术的广泛普 及和应用,信息技术与档案管理的结合也显得尤为重要。在日常档案管理工作 2 档案数据库多版本管理方案 中应借助信息技术来管理档案,使档案管理工作更加、合理、科学。 传统档案管理环节在时序上是排队的,各个环节之间存在一定的时间差, 且大多数情况下可以一次性完成,于是按照一定的流程进行,从一个环节传递 到下一个环节,每上一个环节必须在下一个环节之前完成,每下一个环节只在 前一个环节完成之后执行,以此类推,一直到管理过程结束。线性接替预示着 传统档案管理是单向的,除非有特殊原因,否则不会出现反复和循环的情况。 与时序类似,文件的各个版本也是顺序线性关系,不存在并行版本,版本的管 理相对简单,线性接替模型如图 1.1所示。 收集 鉴定 著录 归档 保护 利用图 1.1 传统档案管理各项功能之间的线性接替关系 1.1.2 电子文件档案管理 办公自动化、电子政务等技术的出现[40],使档案的生成方式发生很大变化, 诸如文件的起草、签发、催办、归档等运作过程在计算机和信息管理系统中 进 行,那么档案也自然以电子文件形式存在,这些档案的管理和利用方式与纸质 载体档案有很大差异。 电子文件档案的管理[27][44]与传统档案管理迥然不同,各项功能之间不仅 没有明确的时间差,而且单项功能一般难以一次完成,必须多次执行、不断积 累,具有明显的迭加特征。 所谓迭加,意味着电子文件档案的某些功能,如捕获、归档、著录、鉴定 等,不能在一个时间点一次性的完成,而需要多次执行,不断补充、积累,昀 终完成档案管理目标。以著录为例,在文件生成时,需要记录著录文件的作者、 发送者、形成时间、有关业务活动和技术环境等信息;文件现行期记录文件在 流转过程中各环节的责任者。具体时间和处理情况等;文件现行期结束后归档 时,需要记录文件分类和鉴定等的有关项目。这个过程将一直延续到档案生命 周期终结时。 单项功能的迭加特征使各功能之间的接替关系变得不可能,各项工作几乎 都是从文件生成时开始,而且需要在生命周期的各个阶段持续开展,各项之间 3 档案数据库多版本管理方案 的关系就像图 1.2所示的平行线,彼此之间不可能再是接替关系,取而代之的是 彼此独立、彼此开展的关系。 捕获和归档持 鉴定 续 著录 开 存储和保护展 文件生成 现行期 半现行期 非现行期 图 1.2 电子文件管理各环节的平行关系 由于电子文件档案是一种不同于传统档案文件(主要是纸质文件)的新事 物,它的诸多新特性使得按照传统档案管理方法管理电子文件档案遇到了许多 新的问题,比如电子文件档案原样性的鉴定、永久保存等。此外信息技术的进 步,特别是网络的出现,也正极大地影响着人们日常的工作方式。档案数据库 的开发建设是档案部门信息化建设的一部分,是其档案管理解决方案的核心部 分,目前对于如何完成电子文件档案的有效管理还没有一个标准、完整的答 案。 文档生产、入库、更新、分发和应用的完整机制,为档案管理系统的业务 逻辑提供了昀大程度的自动化和数据服务。系统主要具有如下特征: (1)变更频繁:系统需要保持各类数据的当前情况,同时还要记录相应的 历史数据。 (2)多用户操作并行进行:由于档案管理系统为各个不同的部门提供数据 服务,且各部门对数据的操作通常需较长时间的多个连续步骤才能完成,保证 多用户同时操作档案数据并保持数据的完整性和一致性是系统的基本要求。 4 档案数据库多版本管理方案 1.2 电子文件档案管理相关研究 1.2.1 电子文件管理理论 基于对电子文件档案的一些新特性的认识,比如电子文件档案的数字化信 息形态编码、电子文件档案对设备的依赖性、电子文件档案物理结构与逻辑结 构关系的复杂性及对元数据的依赖性、电子文件档案信息与载体的分离性、电 子文件档案的信息共享性及安全性、电子文件档案信息的易更改性、电子文件 档案非实体归档的可能性等等,各国档案界人士,发表了很多见解[43][46]。 Richard. E. Barry是国际上一位从事信息管理、电子公文管理的咨询专家, 他于 1992 年就出版《Management of Electronic Records:Curriculum Materials》 (UNNewYork1992),优先用于指导世界银行的电子文档管理工作。美国档案界重要 的代表人物玛格丽特?海兹乔姆指出,当今档案人员的工作重点已由档案馆文 件的实体保管转变成对所有政府计算机联网系统中的文件进行远距离控制,这 将导致全面的“全新创造档案”。 多年来,在国际电子文件管理理论与实践的不断探索过程中,档案界与各 方面专家在电子文件的管理理念上已达成了共识:信息时代电子文件的昀优化 管理就是集成管理。在 ISO 档案文件管理分技术委员会ISO/TC46/SC112006 年 5 月召开的第十六次年会中,来自 15 个国家的 40 多位代表在研究文件管理 标准ISO 15489的修订草案时,特别提及了文件管理要贯穿文件整个生命周期、 嵌入机构职能及业务流程之中的集成管理思想。在欧美文档管理软件市场上, 一种融合电子文档管理、内容管理、文件管理、档案管理的理论和方法,集成 的文档管理解决方案崭露头角,势不可挡。可见“集成管理”逐渐成为电子文 件管理的昀新理念。 “集成管理”是一种将电子文件管理集成于电子文件生命连 续体之中的全程管理。它要求利用文件连续体模式设计电子文件管理系统,采 用“从文件形成包括形成前,文件管理系统的设计到文件作为档案保存和利用 的管理全过程中连贯一致的管理方式”,实现一种比文档一体化管理要求更高的 一体化。这种理念在国际电子文件研究项目中已不断得到肯定,正如 InterPARES 项目的主持人露西娅娜?杜兰蒂教授所言[42]:“随着 InterPARES研究的深入, 将继续证明这样一种观点:不采取全程管理的眼光,就不可能保管电子文件”。 5 档案数据库多版本管理方案 这种始于电子文件形成源头的全程管理理念,要求对电子文件管理系统的设计 进行前端控制。 “集成管理”已成为国际电子文件昀优化管理的理念,也将是我 国电子文件管理的必然选择。 1.2.2 文件、档案一体化管理的定义 西方档案学者经过多年的研究准确地理解了文件管理和档案管理之间的关 系,认为文件和档案之间的密切关系决定了文件管理和档案管理之间也存在密 切关系[26]。这种联系可以概括为五点:其一,文件管理是档案管理的前提;其 二,档案管理是文件管理的延伸和发展;其三,文件管理和档案管理是一个统 一的系统工程;其四,档案部门和人员的参与,是文件管理质量的重要保证; 其五,文件管理人员与档案人员之间也存在相互依存和相互促进的关系。这种 理解是建立在广义的文件观基础之上的,因此,国外对文件、档案一体化管理 的理解既包括一个机关内现行文件与半现行文件管理的一体化,又包括文件中 心与档案馆的业务衔接,这样才能符合广义文件完整生命过程的要求,才能确 保广义文件从产生直到昀终进馆,都真正 得到全面控制和统一管理。国外盛行 的文件中心就是实现全面文件、档案一体化管理的有效组织形式。 结合中外对文件、档案一体化管理的现有认识,文件档案一体化管理的科 学含义是: 以文件生命周期理论[44][45]为指导,借助计算机及网络技术,从系统论的 角度出发,对文书工作和档案工作进行统筹规划和科学管理,使之实现系统化 和规范化,从而发挥各自以及总体的昀大 效能,确保从机关现行文件直至馆藏 档案管理的高效和优化。具体而言,这一含义包括以下四个方面的内容。 第一,文件、档案一体化管理的总体目标是实现从现行文件到馆藏档案整 个运动过程的全面控制和科学管理。换句话说,全面、科学的“一体化”应当 实现机关文书处理、档案室工作和档案馆工作的三者结合。 第二,文件、档案一体化管理的具体内容包括文件、档案生成的一体化、 管理的一体化和利用的一体化。 第三,文件、档案一体化管理的科学指导是系统思维。运用系统思维来考 察,彼此具有联系和区别的文件和档案是一个更大整体系统的有机组成部分, 从文件到档案存在着一个转化的运动过程,因而对文件到档案的运动过程实施 6 档案数据库多版本管理方案 全面控制和有效管理是十分必要的。 第四,文件、档案一体化管理的技术保障是计算机技术和网络技术为代表 的信息技术。一方面,计算机技术的应用和推广不仅简化了文件和档案管理的 工作程序,而且提高了文件和档案管理的工作效率,更重要的是改变了文件的 生成方式和载体特点,使越来越多的文件依赖计算机生成和读取。另一方面, 网络技术的出现和普及改变了文件的运输、传递、处理和利用等方式的特点, 使计算机生成的文件通过网络可以实现远程传递、异地处理和全球利用。由此 造成的后果是,文件、档案一体化管理的必要性在计算机和网络环境下变得更 加突出,实现的可能性也越大。 1.3 档案管理中多版本问题的提出 现在档案更多是以电子文件的形式存在,电子文件档案管理的一个重要原 则就是要根据电子文件的特点与管理要求,建立起一个完整的管理体系,对电 子文件从产生到永久保存或销毁的整个生命周期进行全程管理[45]。一个半世纪 以来,“来源”原则[43]一直指导着传统档案实体的整理,来源实际上指的就是 文件的形成过程及背景,即文件是由谁、在什么条件下、运用哪些数据、为了 什么目的、采用了何种结构形成的等方面的情况。档案管理的迭加特征意味着 多个操作并行进行,多个用户并发修改。 为了更好地解决档案管理中多版本管理、多用户并发修改和数据起源查询 的问题,我们对传统 DBMS作了一些修改,提供以下几方面的支持以满足档 案 数据库的需要。 (一)记录档案的变更,保存档案的所有存在版本。 (二)允许多个用户同时对一个档案进行修改操作,比如不同用户同时著 录和鉴定。 (三)支持数据起源查询,包括数据历史信息和更新情况的查询。 以上方面可以归结为数据的多版本问题,并行修改导致了多版本的存在, 数据起源查询则要求系统存储档案的多个版本。 现在的解决方案一般在应用层完成,但是仍然有一些不足。本文提出了一 7 档案数据库多版本管理方案 个基于 DBMS的解决方案,通过修改关系 DBMS的实现,希望能够满足档案管 理的特殊需求。 1.4 研究的内容和目标 本章分别介绍了档案的概念,文件、档案一体化的定义,文件、档案管理 信息系统的发展概况,计算机、网络对档案管理的影响及意义,之后提出了课 题研究的内容及意义。 档案是历史的文件,要求真实的记录文件历史,要求保存档案文件的修改 过程。由于每次修改均会产生一个版本,因此我们不仅仅需要存储昀终文件, 也需要存储所有的历史版本,以保持档案的原始性并且能够真实地再现形成 过 程。这就是本文所要讨论的档案数据库中多版本管理问题。 电子文件档案的整个生命周期中,著录、修改、审核和鉴定等执行时间往 往是有交叉重叠的。不同的管理活动往往由不同的用户完成,一个时间段之内 可能有多个用户多次修改,因此需要允许多个用户同时对一个文件进行修改。 多个用户往往在某一个基线版本上进行修改,每一次修改均形成一个新版本, 称为派生版本,多次修改可以同时进行。多个派生版本往往需要合并统一,然 后形成一个新的基线版本。多个基线版本和派生版本共存从而形成多版本结构。 档案管理中,需要支持多用户并行进行数据的检查、入库、编辑与更新, 还可对历史数据进行回溯管理,用户可以浏览不同时期的数据版本,还可以根 据将一段时间的版本整理合并。 版本管理和并发控制结合起来能够有效解决多用户并发操作的冲突问题, 为所有用户提供稳定的并发处理,并且较好地解决了多用户修订操作的版本冲 突,维护了数据的完整性、一致性。 1.5 论文组织 本文共分为七章,后面各章内容组织如下: 第一章 绪论 8 档案数据库多版本管理方案 主要讲述该课题的背景、研究内容和意义,分析了档案数据全生命周期管 理的需求和特点,描述了数据多版本的形成过程,从而提出多版本管理是目前 档案数据库中需要解决的主要问题之一。本章内容是后面章节的引言和基础, 此外还说明了论文的内容和结构安排。 第二章 现有方案的不足和档案数据库多版本管理方案的提出 介绍了当前档案管理中多版本问题的解决方案,从数据库的角度分析了现 有方案的不足,重点分析了多版本存储和管理、并发控制等关键问题,指出了 传统数据库管理档案的缺点,从而提出了重新设计档案数据库的必要性。昀后 提出了档案数据库多版本管理方案及其三个核心问题,这也是本文中心所在。 第三章 多版本存储和管理 首先提出并定义了特殊的档案管理操作即修订和合并,这些操作与传统数 据库提供的操作不同,所以设计了实现方法。然后结合使用多版本并发控制的 关系数据库实现方法,分析其提供的多版本存储契机,从而提出档案数据库 多 版本存储和管理方法。 第四章 并发控制 概述了数据库并发控制基本原理,然后从档案管理的多用户并发修改需求 出发,提出了新的并发控制策略。前一章已经提出了新的档案管理操作修订和 合并,因此本章给出了一些操作的冲突检测原则,涉及的操作包括读取、修订 和合并。 第五章 数据起源查询 首先介绍了数据起源的概念和相关研究,它跟档案管理有密切联系,都是 研究数据来源和形成过程。此外建立档案的目的之一就是为了能够查询历史数 据,所以档案管理必须支持数据起源查询,本章设计了一些查询接口。 第六章 原型系统设计与实现 本文的原型系统基于 PostgreSQL 实现, PostgreSQL 采用多版本并发控制技 术,在一段时间之内会存储老数据,这种方法提供了数据多版本存储的基础。 前面已经提出的设计框架就是在此基础上做修改实现,主要涉及到多版本存储、 并发控制、数据起源查询三个方面。 第七章 结束语 总结了档案数据库多版本管理方案对档案管理的支持,由此概括了本文的 9 档案数据库多版本管理方案 创新点和贡献,并提出了下一步的工作,包括数据压缩、存储优化、索引的创 建等问题。 附录 测试方案 测试方案的设计依旧基于多版本存储管理、并发控制、数据起源查询三个 方面进行。以 SQL语句的方式进行,并给出了应该得到的查询结果,试图通过 这些例子阐释本方案的意义。 10 档案数据库多版本管理方案 第 2章 现有方案的不足和档案数据库多版本管理 方案的提出 传统数据库通常只保留数据的昀新状态, 不存储数据库的以前版本。如果 想得到以前的数据,可以通过回滚、闪回等方法,但这种方法是用来得到偶然 丢失的数据,是对不保存旧数据的一种补救措施,并不适合作为自身的功能提 供给应用程序。变通的方法就是在应用层冗余存储,但是与在数据库存储层保 留冗余的性质完全不一样。前者是单纯地冗余存储多条记录,后者是根据元组 的生成过程来存储,是一种自动机制。 本章详细介绍了在应用层实现多版本管理的几个不足之处,重点分析了存 储方面和版本维护方面,这也是本文的核心所在。此外,这两方面也是数据管 理的基础,因此如果能有更好的方法将大大地简化应用逻辑并提高效率。随后 我们就这些不足提出了档案数据库多版本管理方案,希望能够较好地满足档案 管理的需求。 此外,Oracle 提出了归档数据库的概念,专门用来管理历史数据,这是一 种比较专业的模式,它将历史数据放到一个特殊的数据库里,所有的管理方法 都是专门设计的,提供专门的接口给应用程序。 2.1 传统关系数据库存储机制 传统的数据库管理系统存储结构分为两种。一种是以 Oracle、 PostgreSQL[1] [2][19]、InnoDB[4]为代表的多版本数据库管理系统,它们保存了元组历史版本 信息,当修改一条元组时,不需要清除旧元组信息,而是先在旧版本上作已删 除的标记,再插入该元组新版本的信息,因此需要定时地清除这些已删除的版 本,以提高空间利用率。另一种是以 MySQL[3]为代表的非多版本数据库管理系 统,当更新一条元组时,先删除旧元组,然后插入新元组,不保存旧版本数据。 当用户需要查询某一条元组的历史信息时,基于多版本的数据库管理系统 由于需要定时清除历史版本信息,因此无法查询到元组的所有历史信息。而类 11 档案数据库多版本管理方案 似 MySQL 的这类数据库管理系统由于其不保存历史信息,所以也无法查询到 历史信息。 当前数据库对档案管理支持的不足主要体现在以下方面:第一,一般只存 储当前时间的昀新数据,不能永久存储旧 版本;第二,数据没有版本的概念, 自然没有有效的版本维护方法;第三,写写操作互相阻塞,不支持多用户并行 修改。第二个问题则是因为数据库本身不提供版本管理功能,如果在应用层实 现,则通常将每个版本都表示为一份数据,在数据库存储上来看是每个版本都 是独立的数据,多个版本之间的关系依靠应用层的设计来体现。第三个问题是 关系数据库的固有属性,也是为了保证并发操作时数据的正确性和一致性。 2.2 Oracle SnapArchiving 数据库历史数据归档解决方案 SnapArchiving 数据归档解决方案[47]提供了一种全新的信息生命周期管理 模式,以此来解决不断增长的数据问题。SnapArchiving提供了一整套的流 程和 技术来管理信息数据从产生时刻到该数据失去价值的整个过程,其体系结构如 图 2.2所示。 图 2.2 DSG SnapArchiving归档体系结构 12 档案数据库多版本管理方案 DSG SnapArchiving 帮助企业将历史交易数据从生产数据库上迁移到在线 的归档数据库上Online Archive。在线归档与离线归档Offline Archive的昀大 区别在于:在线归档数据库保持对迁移后的归档数据的实时访问。 通过这种历史交易的迁移,使得企业能够在已有的 IT架构基础上支持更好 的应用系统性能,在无需服务器升级和存储扩容的基础上满足企业业务增长的 需要。同时,在生产数据库上保存更少的数据,能够有效的降低容灾、复制、 备份和恢复的成本消耗,降低企业对于 IT系统的总体拥有成本,尤其是后期的 维护成本。 2.3 应用层解决方案的不足 对于档案数据的多版本管理,比较通用的做法是在应用层设计相应的逻辑 来表示版本之间的关系[48],这种解决方案可以灵活地适应具体的业务逻辑,但 是也有以下不足。 第一,对一份数据的每次修改,其修改后结果存储为另一条记录,即一个 版本一条记录,存储上各个版本相互独立,多份数据之间没有天然的联系,版 本之间的关系完全依赖于应用层的设计,过于依赖应用层,一旦出现问题,这 些关系就完全丢失。 为了表示多个版本,常见的方法是使用一个单独的字段模拟时间戳,和一 组特定模式的关系表在数据库和要素层两个层次上来实现,这是模拟数据库底 层实现的一种方法,实际上采用多版本并发控制的数据库系统的就采用此种方 法来表示元组,但是通常应用层应该更关心应用逻辑,这样就会使得业务逻辑 的结构不清晰,因此并不是很好方法。 第二,在许多具体的业务逻辑中,通常需要对某几个字段特别关注,这样 就会每个字段的修改和维护通常单独使用一个关系表来追踪,比如通常记录修 改前的值、修改后的值、以及修改时间。这样如果对多个字段进行相关历史查 询可能需要多表连接,效率比较低。 第三,存储数据的所有版本会有比较大的空间消耗,应用层不关心存储也 无法采取优化措施。 13 档案数据库多版本管理方案 第四,传统的并发控制机制规定了写写操作互相阻塞,不支持并行修改
/
本文档为【档案数据库多版本管理方案】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索