为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

系统异地灾备平台建设方案

2019-10-26 26页 doc 23MB 83阅读

用户头像 个人认证

IT人

暂无简介

举报
系统异地灾备平台建设方案系统异地灾备平台建设方案目录第一章、灾备系统技术方案 515.1图书馆异地灾备项目概述 515.1.1项目目标 515.1.2项目范围 515.1.3项目建设原则 515.2项目建设整体集成工作需求分析 615.2.1图书馆异地灾备系统的总体要求分析 615.2.2图书馆存储设备现状分析 815.2.3异地灾备存储系统的技术要求分析 915.2.4项目建设重点工作分析汇总 915.2.5项目建设工作难点分析 1115.3灾备系统技术方案 1315.3.1方案的总体设计 1315.3.2灾备建设的总体方案 1415.3.3数据级...
系统异地灾备平台建设方案
系统异地灾备平台建设目录第一章、灾备系统技术方案 515.1图书馆异地灾备项目概述 515.1.1项目目标 515.1.2项目范围 515.1.3项目建设原则 515.2项目建设整体集成工作需求分析 615.2.1图书馆异地灾备系统的总体要求分析 615.2.2图书馆存储设备现状分析 815.2.3异地灾备存储系统的技术要求分析 915.2.4项目建设重点工作分析汇总 915.2.5项目建设工作难点分析 1115.3灾备系统技术方案 1315.3.1方案的总体设计 1315.3.2灾备建设的总体方案 1415.3.3数据级灾备平台设计 3015.3.4灾备链路及SAN网络设计 3215.3.5核心业务数据同步复制技术方案 3615.3.6非核心业务数据异步复制技术方案 4315.4长期保存数据的灾备技术方案 4915.4.1长期保存数据的灾备需求分析及设计原则 4915.4.2长期保存数据的异步复制方案 5015.5我方投标灾备技术方案优势 5015.5.1与现有存储系统整合最好的灾备方案 5015.5.2提供业界最先进存储灾备技术 5115.5.3最合理的SAN网络设计及灾备链路方案 5115.5.4采用业界最高的存储 5115.5.5业内唯一可提供100%数据可用性承诺的存储 5315.5.6业界公测性能排名第一的存储 5315.5.7业界第一款支持双活存储集群的存储 5815.5.8内置存储虚拟化功能 6215.5.9扩展能力极其出色 6915.5.10广泛的操作系统、数据库兼容性 71第二章、灾备系统实施方案 7316.1项目实施方案概述 7316.2项目实施原则 7416.3实施规划 7516.4灾备系统实施进度表 7816.4.1实施计划 7916.4.2项目实施进度计划表 8316.5灾备系统实施方案及切换方案 8516.5.1设备到货及安装服务 8516.5.2SAN磁盘阵列-VSPG1000实施方案 10516.5.3SAN网络设备安装调试 12916.5.4数据中心灾备系统实施方案 12916.5.5灾备系统切换方案 14116.6灾备系统带库实施方案 14416.6.1TS3500磁带库实施 14416.6.2日常操作 14916.7灾备系统实施应急预案 15716.7.1应急预案方案说明 15716.7.2自定义紧急故障处理流程 15816.7.3紧急突发情况处置预案 15816.7.4应急预案的演练 16116.8项目进度控制与质量保证措施 16216.8.1项目质量控制和方向 16216.8.2项目质量控制的工作内容 16216.8.3项目质量控制方案 16316.8.4项目质量保证措施 16316.8.5项目进度保障措施 16516.8.6项目配置管理 16616.8.7项目变更控制管理 16616.9项目组织管理 16716.10项目人员组织计划 17116.10.1拟投入本项目的团队情况表 17116.10.2参与项目人员简历及资质证书 172第三章、灾备系统验收方案 19717.1项目验收基本要求 19817.2项目验收方式 19817.3验收阶段划分 19817.4验收组成员 19817.5验收地点 19917.6项目验收内容 19917.7详细验收方案介绍 20017.7.1验收说明 20017.7.2验收计划 20017.7.3软硬件安装部署验收步骤 20017.7.4灾备平台验收方案 20117.8企业级高端磁盘阵列-VSPG1000验收测试方案 20217.8.1基本功能测试 20217.8.2扩展功能测试 20217.8.3高可用测试 20317.8.4非功能测试 22117.8.5性能测试 22217.9数据中心容灾测试方案(容灾演练) 22317.9.1容灾环境概述 22317.9.2容灾切换演练场景 22417.9.3本地模拟切换演练 22417.10磁带库项目验收方案 22817.11验收报告 229第四章、灾备系统培训及售后服务方案 23118.1灾备系统培训方案 23118.1.1培训目的 23118.1.2培训时间、地点、人数及次数安排 23118.1.3培训内容 23218.1.4培训师资情况(包括教师简历) 23418.1.5培训组织方式等 23518.2售后服务方案 23718.2.1实施公司公司中国地区售后服务体系介绍 23718.2.2投标人售后服务网点明细表 23818.2.3投标人售后服务体系介绍 24018.2.4服务对象 24218.2.5服务目的 24218.2.6服务期限 24218.2.7备品备件库列表 24218.2.8售后服务方案 25018.2.9售后服务方式介绍 25118.2.10磁带库售后服务方案 2521第一章、灾备系统整体方案15.1图书馆异地灾备项目概述15.1.1项目目标通过建立图书馆异地灾备系统,提高图书馆核心业务系统的风险抵御能力,避免或减少灾难打击和重大事故对图书馆及图书馆核心业务系统和重要系统造成的损失,确保核心业务系统的数据安全和作业持续性,实现核心业务数据异地实时同步复制、非核心业务数据以及各类数字资源异地保存。15.1.2项目范围1、异地灾备系统的建设:包括存储设备、配套设备及软件的安装、调试和集成,机房综合布线实施等。2、异地灾备系统的培训:提供异地灾备系统使用及运维培训,确保用户能够熟练掌握、使用和维护异地灾备系统。15.1.3项目建设原则图书馆异地灾备系统建设须遵循以下原则:1、可靠和实用性原则异地灾备系统的设备选型、设计规划和实施方案、运维方案等方面均需考虑可靠性,实用性。2、可扩展性原则异地灾备系统的设备选型和软件应充分考虑可扩展性,能满足由于业务增长和业务需求带来的扩展要求。3、成本效益原则根据灾难恢复目标,按照灾难恢复资源的成本与风险可能造成的损失之间取得平衡的原则,确保投资成本效益。4、风险性原则异地灾备系统的目标就是抗风险,因此图书馆异地灾备系统的设备选型、软件、设计规划和实施方案,都要考虑成熟的技术和方案,使风险降到最低。5、功能完备性原则图书馆异地灾备系统既要实现异地灾备的功能要求,还需要提供完备的监控和管理功能,为系统运维和管理提供有效手段。15.2项目建设整体集成工作需求分析15.2.1图书馆异地灾备系统的总体要求分析图书馆异地灾备系统要将图书馆城域网上的数据在同城异地实现数据级灾备。同时,要将图书馆磁带库上的数据备份在同城异地的磁带库上。1、为图书馆建立同城异地灾备系统。利用提供的裸光纤在图书馆与灾备中心之间实现同城异地数据级灾备。2、异地灾备系统的数据级灾备需要实现:核心业务数据采用实时同步复制方式。当图书馆的存储系统发生故障时,核心应用系统所使用的本地逻辑卷能切换到灾备机房的存储系统上,时间要求在半小时内,保证切换后数据可用。采用HDSTruecopy实时同步复制技术,对核心业务数据进行实时同步复制。主中心存储作为Primary卷提供正常使用,灾备中心VSPG1000作为Secondary卷,接受主中心实时复制过来的数据,平时为只读方式。通过远程链路将两个数据中心的SAN网络连通,当图书馆的存储系统发生故障时,系统会自动断开数据复制关系,核心应用系统可以通过远程SAN网络访问灾备机房的存储系统。切换时间包含磁盘卷的启用时间,可以控制在半小时以内,切换后数据可用。非核心业务数据及各类数字资源采用异步数据复制方式,在保证不影响核心业务数据灾备的情况下,实现图书馆与灾备中心的数据一致。当图书馆存储系统发生故障时,非核心业务系统可使用灾备机房存储系统上的数据,并保证数据可用。采用HDS异步复制技术,对非核心业务数据及各类数字资源进行异步复制。主中心存储作为Primary卷提供正常使用,灾备中心VSPG1000作为Secondary卷,接受主中心异步复制过来的数据,平时为只读方式。通过远程链路将两个数据中心的SAN网络连通,当图书馆的存储系统发生故障时,系统会自动断开数据复制关系,系统可以通过远程SAN网络访问灾备机房的存储系统。切换时间包含磁盘卷的启用时间,切换后数据可用。3、灾备系统设计时应充分考虑兼容性和易用性。灾备技术应和现有环境兼容,且灾备技术不依赖于主机系统、文件系统、数据库系统。灾备系统的日常运行是基于存储系统的工作机制,利用存储系统的控制台实现监控管理、远程控制和操作,控制和操作直观和易用。4、灾备方案在保证现有应用系统不做更改的基础上,尽可能减少对图书馆各业务系统的影响,并尽可能利用图书馆的现有设备。部分厂商的灾备方案需要对现有生产中心的存储架构做很大的更改,需要使用虚拟化设备对目前的两套USPV进行虚拟化,虚拟化为该厂商的存储格式后,再与灾备中心该厂商的存储设备进行复制。这种方案从实际角度来讲,是一种不负责任的架构设计。原因是增加了更多的故障点和管理层级,同时给性能带来了很大的影响。合理的方案应该是丝毫不影响现有的存储架构,可以直接和现有的存储进行同步或异步数据复制。5、本次项目异地灾备的数据范围是指图书馆现有存储系统上保存的全部业务系统的数据,具体以实际环境为准。6、本项目建设采用目标式管理,对拟采用的技术手段和技术方法不做限定。无论是采用虚拟化技术还是采用其他技术方式,最终需达到图书馆异地灾备系统的建设目标,同时要求承建单位对其设计和实施方案负全部责任。总体分析来看,图书馆业务主要分为两大类业务系统,核心业务系统,非核心业务系统,包含数据及各类数字资源。按照其承担的业务功能的不同来进行分析,以期得到系统各业务功能的关键性、灾难恢复指标(RTO&RPO)及灾难发生时的各业务功能的恢复优先级别。通过调研业务部门及信息中心的相关人员以搜集资料,最终完成业务影响分析工作,得到了各业务功能恢复的优先级别,其中图书馆业务自动化Aleph500系统、办公自动化OA系统、统一用户认证管理系统、唯一标识符系统、版权管理系统、发布与服务系统等核心业务系统需最优先恢复。在主生产中心存储系统故障的情况下,核心业务恢复指标分别为: RTO=0.5小时; RPO=0小时;需要注意的是,目前图书馆灾备机房还没有部署应用服务器,因此无法实现数据中心级灾备乃至应用级灾备。本期项目,将能提供数据级别的灾备,确保核心业务数据数据0丢失,非核心业务具备数据一致性,确保可用。15.2.2图书馆存储设备现状分析目前,图书馆SAN架构的存储系统中,有两套USPV磁盘阵列磁盘空间(裸容量)共750TB,AMS1000磁盘阵列磁盘空间(裸容量)共150TB,两套磁带库设备(SUNSTK8500和IBM3584)、4台HDS博科48000光纤导向器以及其它附属设施等。两套磁带库由TSM存储管理软件统一管理,具体连接情况见图1。图1图书馆存域网和磁带库设备连接情况截至2013年3月,图书馆SAN存储已连接图书馆业务自动化Aleph500系统、办公自动化OA系统、统一用户认证管理系统、唯一标识符系统、版权管理系统、发布与服务系统等核心业务系统,以及多个资源镜像系统。目前SAN存储磁盘空间(裸容量)已分配约540TB,今后还将不断有新的业务系统连接SAN存储。截至2012年底,图书馆自建数字资源和外购数字资源总量已达813.5TB。所有自建数字资源均应保证磁带库上有备份,因此,图书馆异地灾备系统需要配置大容量磁带库,以满足这部分数据的备份和长期保存需要。15.2.3异地灾备存储系统的技术要求分析放置在异地灾备机房的存储系统总体要满足下列要求:1、存储系统的容量要能够保证图书馆现有存储系统的数据灾备需要,以及未来3年内新增数据灾备的需要,存储系统的存储空间要具有较大的可扩展性。2、存储系统要具有较强的存储整合能力和兼容性,能够满足图书馆不同类型数据的复制、备份、迁移,能够兼容整合不同类型异构的存储设备。3、在满足本项目灾备的需求基础上,通过技术手段提高存储的使用率和投资性价比,以降低成本。15.2.4项目建设重点工作分析汇总针对以上需求分析,重点工作汇总结论如下。首先从项目建设总体原则来看,方案配置需要满足以下几个原则:1、 可靠和实用性原则2、 可扩展性原则3、 成本效益原则4、 风险性原则5、 功能完备性原则从项目要实现的效果来看,需要满足以下重点恢复指标:·实现数据级别的灾备从数据复制链路建设来看,需要满足以下指标:·满足现有HDS博科48000交换机与灾备中心新交换机的互联互通;·现有4对裸光纤的数据复制带宽可满足主中心至备份中心的数据复制量;·主中心SAN网络与备份中心SAN网络的安全隔离,即能有效规避SAN配置干扰,链路抖动干扰等问;·备份中心SAN网络需要具备合理化,可扩展,高可用等原则,为后期实现应用级灾备做好基础工作从存储架构来看,需要满足以下指标:·对生产中心存储不能造成架构上的变化,即不采用网关虚拟化或阵列虚拟化技术对生产中心存储进行改造;·灾备中心存储需满足技术先进性,高可用,可扩展,易管理等需求,为后期实现应用级灾备做好基础工作;15.4.1核心业务灾难恢复指标在主生产中心存储系统故障的情况下,核心业务恢复指标分别为:· RTO=0.5小时;· RPO=0小时;15.4.2非核心业务灾难恢复指标在主生产中心存储系统故障的情况下,非核心业务恢复指标分别为:· RTO=0.5小时;· RPO=0至1分钟;根据异步复制策略,生产中心和灾备中心的数据可以完全保证一致性,即生产中心存储发生故障之后,灾备中心的数据保持一致性,数据可用。两个中心之间的数据差异量取决于:复制间隔、取决与生产中心数据变化量和复制带宽的情况。根据我们对图书馆存储现状的调查,非核心业务的数据变化量很低,因此可以保证两边的数据没有差异化。15.4.3长期保存数据类系统灾难恢复指标在主生产中心存储系统故障的情况下,长期保存数据恢复指标分别为:· RTO=0.5小时;· RPO=24小时;需要说明的是,长期保存数据指备份在磁带库上的静态数据,固定内容数据。目前的备份周期和策略是24小时备份1次。因此理论上,最大丢失数据是24小时。但,考虑到静态数据变化的频率很低,因此,利用磁带库远程传输静态数据的灾备方案切实可行。15.4.4项目定期演练工作数据存储平台灾备测试是在图书馆存储设备开展项目技术测试,完成初始验收工作后,以数据中心之间的存储设备构建的数据中心存储灾备平台的联调测试工作。保证两中心的存储设备互联互通,并能够实现数据的正常复制。在完成联调测试工作后,监测系统的运行状况,考察系统工作的可靠性和稳定性,解决基础软硬件平台可能存在的问题。在保证整体平台正常运行的前提下,进行定期的灾备演练,通过演练保证灾备平台真正可用,为生产系统提供灾难性保护,具体实施、测试技术方案请参考实施方案中的两数据中心灾备建设方案章节内容。15.2.5项目建设工作难点分析15.5.1灾备链路设计与现有SAN网络的结合图书馆生产中心SAN网络经过这些年的不断建设和发展,目前SAN网络架构相对比较独立,不利于统一管理和业务发展。现有的光纤交换机主要是4Gb产品,随着新主机和新存储设备的接入需求,当前主流已经是8Gb和16Gb主机和存储产品。目前形成2套独立的SAN网络。每套SAN网络由2台HDS博科48000交换机构成,组建全冗余的SAN网络。两套HDS博科48000构建的SAN网络各自独立,分别构建与2008年和2012年。其中两台的版本号为v5.3.0,另外两台的版本号为v6.3.1a。目前每套SAN网络空余端口在20个左右。经我方调研,需要对生产中心SAN网络进行微码版本调整,以和新购SAN交换机进行远程互联。15.5.2规避对生产中心存储架构的影响现有主中心存储设备是两套HDSUSPV存储和一套HDSAMS1000存储,两套USPV磁盘阵列磁盘空间(裸容量)共750TB,AMS1000磁盘阵列磁盘空间(裸容量)共150TB。目前SAN存储磁盘空间(裸容量)已分配约540TB,今后还将不断有新的业务系统连接SAN存储。构建数据级别的灾备,最佳选择就是通过基于磁盘阵列的数据复制方案。基于这种架构,可以对应用层实现透明的数据复制,对应用层不造成任何影响。而如果采用异构磁盘阵列,或者说虚拟化磁盘阵列的灾备数据复制方案,则首先需要对生产中心的存储架构进行改造。以存储虚拟化为例,需要先部署一套新的异构存储,再对现有存储架构进行调整,具体步骤如下:·应用系统全部停机,断开与现有存储的连接;·将现有存储的连接关系更改到新的存储;·新的存储对现有存储进行封装后,连接到应用系统;·应用系统识别封装后的磁盘这种改造方案已经很明显地对现有存储架构带来了影响,从应用停机窗口,数据安全,后期维护等方面均造成了很大影响。规避基于虚拟化磁盘阵列的灾备数据复制方案,是重点工作。我方为规避这种影响,采用基于同构磁盘阵列的灾备方案,在灾备端部署HDSVSPG1000存储,与现有USPV为同构存储,运行同一套存储操作系统,可以无影响地进行基于阵列底层LUN数据复制。15.5.3规避生产中心SAN网络架构影响生产中心目前有4台HDS博科48000SAN交换机。并且每2台48000SAN交换机形成1套独立的SAN网络,这两套SAN网络之间没有任何关系,独立运行,每套SAN网络中都有自己的DomainID,都有自己的首选Primary交换机,来管理zoning的分配。因为任何一个SAN网络都需要有一个Primary交换机来做逻辑上的管理,避免交换机和连接进来的SAN设备有冲突,它为每一个新加入SAN网络的成员分配一个独立的SAN网络地址。当1台新的SAN交换机加入到SAN网络时,如果设置不当,会产生Primary交换机的重新选举,该过程会造成SAN网络的暂时IO停顿,持续时间数秒钟,对业务IO将会造成不可估量的影响,技术上称之为SANMerge。对于本项目中,生产中心的两套SAN网络均需要连接到灾备中心,并与灾备中心的SAN网络进行互联,如果采取不适当的方案,则会通过灾备中心的SAN网络将生产中心的2个SAN网络合并,发生SANMerge的情况,如下图所示:我方为了规避此种情况,将会使用SAN路由的技术,使得生产中心与灾备中心的SAN网络既可以互联在一起,同时有不会发生SANMerge的情况,不会对生产系统产生任何影响。利用SAN路由的功能,灵活管理数据传输情况,使得两地数据中心的SAN网络即可以传输数据,又在逻辑上保持各自独立,效果如下图:15.3灾备系统技术方案15.3.1方案的总体设计整体解决方案根据需求,设计如下图所示:1、在灾备数据中心部署一台HDS高端存储设备VSPG1000,作为灾备中心的核心存储,用于承载灾备数据,与现有生产中心的主存储进行数据复制,在主中心存储发生故障是进行接管,继续提供数据服务;VSPG1000是HDS最高端产品系列,同时也被业界第三方权威机构评价为排名第一的高端存储平台。2、在灾备数据中心部署2台HDS博科高端光纤交换机,并可以与生产中心光纤交换机构建为互不干扰的两套SAN网络结构,配置SAN路由的功能,构建成SAN路由网络1与SAN路由网络2,两套SAN之间的配置互不干扰,任何链路抖动带来的RSCN等干扰信号也会被隔离,可以高效,实时,安全地传输灾备复制数据。3、在灾备数据中心部署IBM高端磁带库1套,满足标书技术需求,同时可以与用户生产中心的备份平台TSM无缝结合,建立起远程复制关系。15.3.2灾备建设的总体方案15.3.2.1远程灾备规划截至2012年底,图书馆自建数字资源和外购数字资源总量已达813.5TB。国家数字图书馆数字资源集中保存与管理系统运行平台是数字资源按图书馆指定的数据标准进行加工、组织、存储的应用软件的运行环境。图书馆业务自动化Aleph500系统、办公自动化OA系统、统一用户认证管理系统、唯一标识符系统、版权管理系统、发布与服务系统等核心业务系统将迅速膨胀,业务数据不断加速增长。这些数据是系统运作的核心,必须有完善的保护措施。在业界当前的趋势下数据的可用性和安全性对企业的影响越来越大,关键数据的丢失,可能给系统造成巨大的经济和信誉损失。虽然数据中心建设已经有一些定时备份的策略,但还是有可能造成大量的数据丢失(1天以上),出现灾难时的系统恢复时间也相应延长,特别是当出现重大区域性灾难时,本地备份很难满足业务连续性的要求。因此,在一期建设数据级灾备平台的项目上,其重点是利用古籍馆数据中心做为图书馆核心系统生产中心的灾备中心,实现基于存储的远程灾备保护。方案规划中重点考虑以下环节:1、 可靠和实用性原则2、 可扩展性原则3、 成本效益原则4、 风险性原则5、 功能完备性原则从项目要实现的效果来看,需要满足以下恢复指标:·实现数据级别的灾备·在主生产中心存储系统故障的情况下,核心业务恢复指标分别为: RTO=0.5小时; RPO=0小时;从数据复制链路建设来看,需要满足以下指标:·满足现有HDS博科48000交换机与灾备中心新交换机的互联互通;·现有4对裸光纤的数据复制带宽可满足主中心至备份中心的数据复制量;·主中心SAN网络与备份中心SAN网络的安全隔离,即能有效规避SAN配置干扰,链路抖动干扰等问题;·备份中心SAN网络需要具备合理化,可扩展,高可用等原则,为后期实现应用级灾备做好基础工作从存储架构来看,需要满足以下指标:·对生产中心存储不能造成架构上的变化,即不采用网关虚拟化或阵列虚拟化技术对生产中心存储进行改造;·灾备中心存储需满足技术先进性,高可用,可扩展,易管理等需求,为后期实现应用级灾备做好基础工作;综合分析,我们建议采用基于VSPG1000高端存储为核心的灾备方案,同时提供SAN网络路由功能,将生产中心与灾备中心的SAN网络有机整合在一起,满足本项目的灾备需求。15.3.2.2业务连续性分析根据图书馆系统业务模式和需求,核心业务系统数据以及由其负责支撑的业务系统对连续性的要求很高,是整个业务运行的关键。因此从数据级灾备角度看,RPO要求越小越好,也就意味着数据丢失量少,建议采用实时数据复制的灾备备份技术。如果从应用级快速恢复的角度看,需要在数据级灾备基础上,在异地中心部署支撑整体业务系统的设备和网络,保证能够在较短时间恢复业务运行,即RTO较小。灾难备份系统的建设目标主要衡量指标是恢复点目标(RecoveryPointObjective,简称RPO)和恢复时间目标(RecoveryTimeObjective,简称RTO)。本次项目设计主要参考国家《信息安全技术信息系统灾难恢复规范》(GB/T20988-2007),其分类的灾备系统基本上划分为以下六个级别: 灾难恢复能力等级 RPO RTO 1 1天至7天 2天以上 2 1天至7天 24小时以上 3 数小时至1天 12小时以上 4 数小时至1天 数小时至2天 5 0至30分钟 数分钟至2天 6 0 数分钟根据对各业务连续性要求的分析,建议系统规划采用更高业务连续性的实时复制灾备技术。项目设计规划的数据级灾难备份系统以磁盘实时远程复制为技术支撑,异地数据保护达到RPO=0分钟的目标。当图书馆的存储系统发生故障时,系统会自动断开数据复制关系,核心应用系统可以通过远程SAN网络访问灾备机房的存储系统。切换时间包含磁盘卷的启用时间,可以控制在半小时以内,切换后数据可用,即同时达到RTO<0.5小时的目标。15.3.2.3灾备技术选择1、灾备的7个层次据国际标准SHARE78的定义,灾难恢复解决方案可根据以下主要方面所达到的程度分为七级,即从低到高有七种不同层次的灾难恢复解决方案。可以根据企业数据的重要性以及您需要恢复的速度和程度,来设计选择并实现您的灾难恢复计划(参见图3)。这取决于下列要求:·备份/恢复的范围·灾难恢复计划的状态·在应用中心与备份中心之间的距离·应用中心与备份中心之间是如何相互连接的·数据是怎样在两个中心之间传送的·有多少数据被丢失·怎样保证更新的数据在备份中心被更新·备份中心可以开始备份工作的能力现已证明,为实现有效的灾难恢复,无需人工介入的自动站点故障切换功能是一个必须被纳入考虑范围的重要事项。目前通用的异地远程恢复标准采用的是1992年Anaheim的SHARE78,M028会议的报告中所阐述的七个层次:灾备系统的7个层次0层-没有异地数据(Nooff-siteData)Tier0即没有任何异地备份或应急计划。数据仅在本地进行备份恢复,没有数据送往异地。事实上这一层并不具备真正灾难恢复的能力。1层-PTAM卡车运送访问方式(PickupTruckAccessMethod)Tier1的灾难恢复方案必须设计一个应急方案,能够备份所需要的信息并将它存储在异地。PTAM指将本地备份的数据用交通工具送到远方。这种方案相对来说成本较低,但难于管理。2层-PTAM卡车运送访问方式+热备份中心(PTAM+HotSite)Tier2相当于Tier1再加上热备份中心能力的进一步的灾难恢复。热备份中心拥有足够的硬件和网络设备去支持关键应用。相比于Tier1,明显降低了灾难恢复时间。3层-电子链接(ElectronicVaulting)Tier3是在Tier2的基础上用电子链路取代了卡车进行数据的传送的进一步的灾难恢复。由于热备份中心要保持持续运行,增加了成本,但提高了灾难恢复速度。4层-活动状态的备份中心(ActiveSecondaryCenter)Tier4指两个中心同时处于活动状态并同时互相备份,在这种情况下,工作负载可能在两个中心之间分享。在灾难发生时,关键应用的恢复也可降低到小时级或分钟级。5层–两个活动的数据中心,确保数据一致性的两阶段传输承诺(Two-SiteTwo-PhaseCommit)Tier5则提供了更好的数据完整性和一致性。也就是说,Tier5需要两中心与中心的数据都被同时更新。在灾难发生时,仅是传送中的数据被丢失,恢复时间被降低到分钟级。6层-0数据丢失(ZeroDataLoss),自动系统故障切换Tier6可以实现0数据丢失率,被认为是灾难恢复的最高级别,在本地和远程的所有数据被更新的同时,利用了双重在线存储和完全的网络切换能力,当发生灾难时,能够提供跨站点动态负载平衡和自动系统故障切换功能。2、远程灾备技术选择灾备系统的技术架构设计一定是一个多层次的统一规划,一个良好的灾备系统应包括在线备份、近线备份、离线备份的多种手段,见下图:我们在灾备的七层次中已经论述过一些技术实现和灾备效果,图书馆的灾备设计应综合考虑各种技术的组合和辅助功能,分步实施,最终实现最高层次的灾备架构。具体到灾备的技术手段,从一个系统的纵向来看,各个层面都有实现的方法,在这里做一个比较:远程灾备层次1、基于磁盘或磁带库的备份解决方案·定时备份,成本低,易于实现·RPO长,数据丢失量大2、基于应用程序灾备解决方案·应用程序在本地、远端双写I/O·复杂、麻烦、不稳定、效率低3、基于数据库复制的远程灾备解决方案·数据库本身的远程复制(OracleDBGuard)·不稳定、只能复制数据库文件4、基于主机的远程数据复制软件灾备解决方案·复制软件在卷管理器层面截获I/O,远程复制·低效率、占用主机资源、价格昂贵5、基于存储的远程数据复制灾备解决方案·智能存储远程数据复制·安全、成熟、简单、高效、节省资源实时复制的灾备分析:实现最小数据丢失的实时灾备是企业级用户的最终目标,而目前的手段主要基于应用、操作系统和存储设备,其中,应用和操作系统级别的复制技术都有一定局限性,用于数据高可靠灾备上需谨慎考虑。基于存储的远程数据复制技术是属于我们上面提到的SHARE78第五层以上灾备,具有RPO和RTO短的优势,同时安全、成熟、稳定,当前的大型灾备项目基本上都基于这种技术,这也是本规划重点设计采用的远程灾备技术。15.3.2.4数据复制方式分析与选择基于存储的远程数据复制是本次方案的核心技术,它又分为同步的“0”数据丢失和异步的少量数据丢失这两种实现方法。那么对于图书馆灾备系统,如何选择同步或异步呢?以下详细分析:一、HDS同步方式分析HDSTrueCopy/Sync数据同步复制灾备解决方案是HDS公司在全面分析各种操作系统、各种灾备技术、仔细研究客户对灾备的需求和理念之后,结合HDS高端智能磁盘存储系统的特点推出的数据同步复制灾备解决方案,在使用TrueCopy/Sync同步数据复制软件进行数据复制时,备份端的数据拷贝与生产端的数据拷贝或生产数据永远保持一致,备份端拷贝永远是生产端数据盘的“镜像”。此时作为备份磁盘存储系统总是与生产磁盘存储系统数据同步,生产端磁盘存储系统与备份端磁盘存储系统同步进行相同的I/O更新,备份端磁盘存储系统在更新时总是与生产端磁盘存储系统保持完全一致的顺序,以保证数据的一致性和完整性。当生产系统发生灾难时,不会出现数据丢失。同步方式下:任何厂商的同步处理方式对应用系统的响应时间都会有冲击。在进行远程数据备份时,生产主机的应用程序系统发出写I/O指令,生产中心的存储系统同时向本地磁盘和备份端的存储系统发出写操作的指令,必须等候备份端存储系统回复写操作完成以后,生产中心的存储系统才向主机应用程序回复I/O完成,因此主机应用程序每次I/O将承受备份端存储系统I/O确认的延迟,以及由此带来的主机系统处理能力降低和资源消耗的冲击。同步远程数据复制对系统的影响·受应用系统I/O读写的活动频率、网络带宽、可以容忍的交易响应时间和其他因素的影响,远程同步工作方式有距离的限制,一般小于30公里(理论上100公里)·高带宽要求,因为是同步数据复制,因此传输链路的带宽需要用I/O峰值计算·备份中心存储处理能力要求足够好,要保持cache、磁盘数量、数据写入磁盘的性能等,否则会连累生产端,导致生产端系统宕机二、HDSUR异步方式分析HDS为系统异地灾备设计建议的数据复制采用VSPG1000通用存储平台的通用复制(UR)软件技术。HDS通用复制软件UniversalReplicator,是基于HDS最新一代的通用存储平台实现的异步远程数据复制软件。通过HDS通用存储平台的虚拟化功能,HDS通用复制软件可以实现同构或异构存储系统之间的远程数据复制功能。HDS通用复制软件采用基于磁盘日志文件的技术,可以保证远程数据的一致性和完整性,同时,极大的降低了存储系统CACHE和通信链路带宽的需求。它是对HDS原有的异步远程复制软件的补充。HDS通用复制软件的原理如下图所示:图1HDSUniversalReplicator超远程数据复制软件1、磁盘日志卷HDSUR超远程数据复制软件利用“磁盘日志卷”进行待传数据的实时转发,节省生产系统存储Cache资源当服务器端发出一个写操作时,写I/O按照写发生的顺序保存在主存储系统的日志卷(JNL)中,远端的存储系统通过发出读日志命令从主存储系统的日志卷(JNL)中读取记录并将其写到本地的日志卷(JNL)中,然后将该记录更新到本地的数据卷中。上述过程是实时进行的,相比起其他厂家的以30秒钟为周期的异步复制技术,具有更理想的“RPO”指标。同时,无论线路带宽如何变化,UR超远程数据复制软件能够自动的调整传输策略,充分使用线路的带宽资源。HDSUR超远程数据复制软件也节省了通信链路的带宽需求,在传统的数据远程复制环境下,通信链路的带宽需求不够,则数据会累积在存储系统的CACHE中,当CACHE资源不够时,远程数据复制过程中断。采用基于磁盘日志方式的UR超远程数据复制软件,可以利用磁盘日志文件缓冲对带宽的瞬时高需求,从而可以避免由于瞬间的高带宽需求造成的远程数据复制的挂起。图2HDSUR对Cache和带宽的要求降低2、吸收式复制技术HDSUR超远程数据复制软件利用“吸收式复制技术”进行数据复制,提升生产系统的存储工作性能。HDS通用复制软件引入了pull(拉)机制实现数据的复制,使用这种技术,主存储系统不需要特定的资源将数据推(Push)到远程存储系统中,而是远程存储系统到本地存储系统来读日志卷。这样就解除了主存储系统用于数据远程复制的资源消耗,使得主存储系统的资源100%的服务于生产系统,从而提高了存储系统的性能。3、数据一致性保证通过“顺序号”、“一致性组”技术,HDSUR超远程数据复制软件保证异步模式的数据一致性。HDSUR超远程数据复制软件也有效的解决了在数据复制过程中的重新同步过程中的数据不一致性问题。在传统的数据复制方式下,当数据链路的原因造成数据不能够复制,数据远程复制自动挂起,同时对生产端存储系统的数据更新保存在存储系统的Bitmap表中,当链路恢复后,存储系统根据Bitmap表中的记录信息将更新过的磁道复制到备份端的存储系统,而在这个过程中备份端的存储系统的数据一致性是不能保证的,这就是数据复制的重新同步问题。由于HDS通用数据复制软件采用基于磁盘日志的工作方式,当数据链路断开后,对数据的更新仍然按顺序保存在磁盘日志中,这样,当链路恢复后,HDS的UR超远程数据复制软件仍然到生产端存储系统的日志文件中读取数据更新记录,这样就解决了数据的重新同步问题。4、解决通信线路故障修复后的数据“再同步”问题HDSUR超远程数据复制软件也有效的解决了在数据复制过程中的重新同步过程中的数据不一致性问题。在传统的数据复制方式下,当数据链路的原因造成数据不能够复制,数据远程复制自动挂起,同时对生产端存储系统的数据更新保存在存储系统的Bitmap表中,当链路恢复后,存储系统根据Bitmap表中的记录信息将更新过的磁道复制到备份端的存储系统,而在这个过程中备份端的存储系统的数据一致性是不能保证的,这就是数据复制的重新同步问题。一般的异步复制解决方案,为了解决“再同步”过程中的数据不一致,会要求在灾备系统留出额外的一份“GoldenCopy”(完整数据快照)空间,在“再同步”之前首先进行一个快照,以保证数据的一致性。这种方式,即浪费存储资源,又增加了额外的系统管理难度。由于HDS通用数据复制软件采用基于磁盘日志的工作方式,当数据链路断开后,对数据的更新仍然按顺序保存在磁盘日志中,这样,当链路恢复后,HDS的UR超远程数据复制软件仍然到生产端存储系统的日志文件中读取数据更新记录,这样就解决了数据的重新同步问题,无需额外的“GoldenCopy”。5、利用“存储虚拟化”技术支持异构存储系统之间的复制由于HDSUR超远程数据复制软件是基于HDS通用存储平台实现的数据远程异步复制功能,由于HDS通用存储平台可以支持异构的存储系统连接和虚拟化,所以HDSUR超远程数据复制软件可以实现异构的存储系统之间的数据远程异步复制功能。HDSVSPG1000将存储虚拟化功能固化在磁盘存储系统的控制器上。这样,TagmaStore的自带磁盘可以直接被虚拟化引擎所管理。VSPG1000可以把连接在同一个SAN上的其他异构存储系统映射成内置盘,然后对其进行虚拟化管理,虚拟化以后的设备对主机透明。由于虚拟化引擎集成在磁盘阵列内部,所以可以非常容易的继承磁盘阵列一些固有的高级功能,如快照、克隆、复制、分区等等。6、基于存储系统实现的数据远程复制技术的比较 功能/产品 其他厂商异步复制技术 HDSUR超远程数据复制软件 生产系统CACHE占用率   高 低 链路故障管理 破坏式bitmap,重新同步 按顺序写入,日志文件 RPO控制 30秒同步一次 实时同步 对主存储系统性能的影响 高(由生产系统执行复制逻辑) 低(由灾备系统执行复制逻辑) 所支持的平台 本厂商的存储 HDS以及其它厂商的异构存储总之,HDSUR超远程数据复制软件可以为你带来如下的受益:·大幅降低存储系统的缓存消耗·提高带宽利用率·简化带宽规划工作·减轻网络故障的影响·灵活地权衡恢复点目标和费用·减少生产/主存储系统的资源消耗·更方便地为多个数据中心提供先进的支持服务·充分利用通用存储平台,优化企业存储平台三、结论建议采用基于HDSVSPG1000存储的灾备方案;在同步还是异步的选择上,一方面考虑较小的数据丢失(RPO目标0分钟),另一方面考虑链路需要采用更据性能价格比的带宽,同时要保证对生产系统影响最小,因此设计生产中心到异地灾备中心采用存储的同步数据复制方式,对于非核心业务数据及各类数字资源进行异步复制,最大的贴近用户灾备的目标,保证数据的完整性和一致性。15.3.2.5数据复制链路分析一、数据复制链路的选择当前业界远程数据灾备的通讯链路基本主要包括直连裸光纤、DWDM和IP网络等,每种方式各有利弊,可以根据需要复制的数据量、业务高峰值、备份中心的距离、用户的系统恢复要求确定通讯链路。对于数据复制链路的速率,理论上是越高越好,当然,实际选择需要结合应用(尤其是突发业务的情况)。首先来看各种种通信链路所提供的带宽: 线路类型 理论带宽(Mbps) 实际带宽(去掉overhead后)(Mbps) 备份1TB所需时间 T1 1.544 1.08 85天 T3 45 31.31 71小时 100bT 100 70.00 31.7小时 OC3 155 108.50 20.4小时 OC12 622 435.40 5.1小时 千兆以太网 1000 200.00 3.1小时 OC48 2488 1741.60 1.2小时 OC192 9953 6967.10 19分钟基于HDS的灾备方案支持的灾备通信链路协议多种多样:FibreChannel、ESCON、DWDM、ATM、E1/E3、IP、SONET等。如果采用ESCON通道直连方式,最大的距离可以为43公里,如果采用光纤通道直连,最大距离为10公里(长波单模光纤),如果采用DWDM,最大的距离可以达到100公里(上述通信链路可以运行在同步方式)。如果在ATM、E1/E3或IP链路下,采用异步方式,理论上可以达到无限距离。通过裸光纤直连交换机,采用FC协议生产中心与备份中心的光纤交换机通过裸光纤直连,两个中心存储系统的同在复制独占端口通过光纤交换机和裸光纤进行连接,可以保证异步数据复制的性能。如果用户希望当生产中心的存储系统故障或数据被破坏原因,生产中心主机可以接管备份中心的数据;FC协议的距离限制是理论上最大100公里,有少量传输时延。通过FC,生产主机甚至可以接管备份中心数据的时候,生产主机Un-mount原生产中心磁盘,重新mount备份中心磁盘。此方式裸光纤线路租费比较高,但由于采用稳定链路传输,可靠性比较高。通过DWDM设备直连裸光纤采用密集波分技术,可以加载多协议,例如FC协议、IP协议,两个DWDM终端之间的距离可以延伸到100公里,解决了FC通道有效传输距离10公里的限制。生产中心的2台光纤交换机通过4条光纤FC端口连接到DWDM终端,租用电信的裸光纤一条,那么通过DWDM技术,可以将多路FC通道和IP网络复用在一条裸光纤上,比较好的解决了裸光纤的利用率和多协议复用的问题。生产主机接管备份中心的方式与工作流程与上述FC直连方式一样。但此方案整体投资比较大,DWDM设备投资较高,一般适用于光纤资源比较紧张的情况。利用IP网络,采用ATM或E1、E3线路,通过FC/IP转换器将FC加载在IP网络中传输。此方案采用国际流行的IP网络协议和链路,通过FC/IP转换设备(例如HDSBRDCX或CISCO的设备),将FC通道协议打包在IP数据包内,通过IP链路传输,理论上没有距离的限制,适用于远程异步数据复制,是性能价格比很好的选择,具体的带宽要根据业务量峰值、距离、应用系统高峰时的写I/O的数量、写I/O块的大小、应用系统所能承受的响应时间的延迟、生产与备份中心之间的距离来计算。但由于IP链路的带宽和协议限制,无法满足生产中心接管备份中心磁盘的要求。FCIP技术概述利用IP网络需要采用FCIP的技术,FCIP(FCoverIP)采用了业界标准的协议,可以通过WAN的基础设施以低至部分E1速率,高至千兆的速度在数据中心之间建立连接。FCIP协议可以封装IP数据报中的光纤通道帧,从而让光纤通道SAN、光纤通道接口的存储阵列或者光纤通道接口的磁带库可以跨越IP网络进行通信。FCIP协议与iSCSI标准协议的区别在于它可以在IP数据网络中为那些使用非标准的SCSI命令的应用提供连接。使用非标准的SCSI命令的应用包括一些由领先的存储阵列供应商提供的磁盘或者卷复制的大量应用。FCIP作为SAN扩展的基础协议,在IETF制定的一系列标准中,FCIP的作用是跨越IP基础设施的SAN与SAN之间的连接标准。FCIP协议将光纤通道指令压缩为IP包,FCIP协议允许独立的SAN环境通过IP网络互联在一起。每个SAN采用标准FC寻址,在FCIP的端点之间建立IP隧道(或网关),一旦隧道建立,扩展的FC设备将被视为标准的FC设备,并予以FC寻址。典型的应用是在一个FCIP网关节点上连接两个或更多SAN环境在标准IP网络之上的FC交换机,通过内部交换链路与先前的SAN光纤环路相结合。FCIP网关压缩FC帧,利用TCP作为底层进行传输(虽然还有UDP,但IETF统称为TCP)。一旦FC帧映射为IP包,即可以通过IP骨干网络进行路由,就像其他IP包一样。当建立的FCIP隧道后,其链路则对FC设备透明。FC交换机可将其视为标准的ISL,因此,每个交换机都可通过命名服务器进行通讯,并形成一个独立的FC命名空间。FCIP网络FCIP用于远程SAN扩展–通过在远程使用开放标准FCIP通道实现备份、远程复制和其它灾难恢复服务,使数据保护和业务连续战略变得简单。图书馆的异地跨省的灾备中心距离15公里左右,RTT时间低于1ms,前期可以采用现有的裸光纤进行同步复制,后期随着灾备中心备份服务器的上线,建议考虑选择DWDM作为高速数据复制链路,可以有效增加带宽利用率。15.3.2.6灾备整体建设构想对于图书馆的长期灾备建设,我们建议首先在生产中心实现IT系统整合,同时按照先同城灾备、后异地灾备的步骤,最终实现三中心的灾备系统,整体的建设步骤为:·第一步:数据中心统一存储平台建设·采用高端存储实现统一SAN网络和SAN分级管理存储池·用高端存储挂接当前的阵列为二级存储,作为备份空间·实现近线数据备份和冗余存储建设·第二步:构建可靠的同城数据级灾备系统(数据级灾备)·基于存储的实时灾备建立异构平台的同城灾备系统·数据级实时灾备实现·最少的数据丢失(RPO<5分钟)·第三步:构建可靠的同城数据级灾备系统(应用级灾备)·关键应用灾备保护,配合主机实现应用级系统切换·灾备中心可靠切换,最少的数据丢失,最短的时间恢复业务·未来扩展:构建异地和三中心灾备系统,实现更高数据保护级别·以异地灾备建设完成为基础,建立同城灾备中心,采用同步方式·关键应用灾备保护,配合主机实现应用级系统切换·实现数据中心保护,充分利用灾备中心的主机资源、存储资源备注:数据级灾备是应用级灾备的基础,在数据级同城和异地数据复制的基础上,根据条件搭建灾备中心的应用平台(包括服务器)和网络平台,即可建立应用级灾备,实现应用的接管。15.3.3数据级灾备平台设计图书馆的异地灾备中心建设重要性不言而喻,数据级灾备将保证生产数据故障的冗余和恢复,同时数据级灾备是应用级灾备基础。数据级灾备是要将图书馆大楼生产中心的关键性数据复制到异地灾备中心,而且当生产数据故障时,可以远程恢复生产数据。从业务系统角度分析,异地灾备中心需要承载关键业务的灾备备份数据,这些灾备业务系统也都是基于数据库运行的,是典型的核心公众性业务,对系统性能要求较高,主要采用数据块存储方式,所以在存储系统的构建时就应该选择适应三中心灾备的高端VSPG1000存储作为同城灾备业务系统的基础存储平台。异地灾备中心如果第一步只考虑作为数据级灾备中心,主机配置可以只保留测试服务器。在方案中,我们建议采用VSPG1000高端存储控制器,无论是架构、空间还是性能都应满足5-10年以上的发展,同时灾备的数据空间可以利用当前生产中心的阵列磁盘,即将现有存储迁移到异地中心使用:1、首先配置高端存储VSPG1000作为灾备备份的存储平台,VSPG1000可以通过存储逻辑分区划分给不同业务各自的存储资源;2、灾备数据可用容量为生产系统中重要业务数据容量包括图书馆业务自动化Aleph500系统、办公自动化OA系统、统一用户认证管理系统、唯一标识符系统、版权管理系统、发布与服务系统等核心业务系统等,现有存储上的可用容量完全满足这些业务的灾备数据承载需求;异地备份中心整体存储架构数据级异地灾备中心系统分为三个层次设计,主机层、网络层和存储层。主机层:在数据级异地灾备中心的灾备系统中,不需要配置接管应用的主机,但可以考虑配置小型测试服务器。未来通过增加灾备主机实现向应用级灾备过渡。网络层:在灾备中心SAN网络设计中,我们建议采用2台光纤交换机,为灾备中心测试服务器和存储互联提供冗余的连接路径。同时针对图书馆生产中心有两套SAN网络的特点,在灾备中心配置SAN路由功能,有效隔离不同SAN网络间的干扰,同时可以安全地复制数据。存储层:异地灾备中心的存储层核心设备是磁盘阵列,在图书馆异地灾备中心集中存储系统中,规划采用VSPG1000建立统一高端存储平台,保证灾备系统数据平台的高性能、高可靠性、高可用性,VSPG1000存储虚拟化控制器没有任何单点故障,内部结构采用高性能、无瓶颈的全光纤交换结构;前端主机通道、后端磁盘通道、数据缓存cache三部分通过cache交换机连接组成无阻塞的高速数据交换网络。另外存储采用全冗余的结构设计:冗余电源模块,冗余散热风扇,RAID技术保护方式,全局动态热备份盘包,Cache镜像保护设计,支持镜像写缓存技术,保证系统高可靠性和实现7×24×365天不停机运行要求。15.3.4灾备链路及SAN网络设计15.3.4.1图书馆生产中心SAN网络现状图书馆生产中心SAN网络经过这些年的不断建设和发展,目前SAN网络架构相对比较独立,不利于统一管理和业务发展。现有的光纤交换机主要是4Gb产品,随着新主机和新存储设备的接入需求,当前主流已经是8Gb和16Gb主机和存储产品。目前形成2套独立的SAN网络。每套SAN网络由2台HDS博科48000交换机构成,组建全冗余的SAN网络。两套HDS博科48000构建的SAN网络各自独立,分别构建与2008年和2012年。其中两台的版本号为v5.3.0,另外两台的版本号为v6.3.1a。目前每套SAN网络空余端口在20个左右。15.3.4.2图书馆灾备中心SAN网络设计我方推荐在灾备中心使用2台HDS博科(HDS博科)第五代B651016Gb平台固定端口交换机,整合后的网络具有很好的灵活性,16Gb平台的端口也符合目前的主流,并可以兼容今后5年的技
/
本文档为【系统异地灾备平台建设方案】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索