为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

因电力故障数据中心虚拟化服务器停机导致信息系统崩溃的灾难恢复概述

2017-09-21 9页 doc 23KB 18阅读

用户头像

is_511210

暂无简介

举报
因电力故障数据中心虚拟化服务器停机导致信息系统崩溃的灾难恢复概述因电力故障数据中心虚拟化服务器停机导致信息系统崩溃的灾难恢复概述 因电力故障数据中心虚拟化服务器停机 导致信息系统崩溃的灾难恢复 2015年07月19日 单位名称:XXXXXXXXXXXXXXX 部 门: XXXXXXXXXXXX 报 告 人: XXXXXX 时 间:2015年 07月 22日 以《XXXXXXXXXXXXXXXXXX信息安全工作总体方针和安全策略》 为依据~根据《5.10信息系统应急处理预案》为指导方针~完成此次XXX单位数据中心灾难恢复工作。 一、事故,故障,前运行方式及业务连续性情况 ,一...
因电力故障数据中心虚拟化服务器停机导致信息系统崩溃的灾难恢复概述
因电力故障数据中心虚拟化服务器停机导致信息系统崩溃的灾难恢复概述 因电力故障数据中心虚拟化服务器停机 导致信息系统崩溃的灾难恢复 2015年07月19日 单位名称:XXXXXXXXXXXXXXX 部 门: XXXXXXXXXXXX 报 告 人: XXXXXX 时 间:2015年 07月 22日 以《XXXXXXXXXXXXXXXXXX信息安全工作总体方针和安全策略》 为依据~根据《5.10信息系统应急处理》为指导方针~完成此次XXX单位数据中心灾难恢复工作。 一、事故,故障,前运行方式及业务连续性情况 ,一,运行环境及功能 中心机房位于XXXXXXXXXXXXXXXXXX,地点,~负责XXX单位所有信息化业务及网络运行。2013年6月开始~中心机房逐步向云计算数据中心转型。于14年10月完全建成以虚拟化云计算为基础架构的智慧数据中心,下称数据中心,~内配有UPS~防雷设备~核心交换机、应用服务器、数据存储服务器、带时控的空调设备等,数据中心外有防雷井~电力专供线路~能有效防止直接由雷击造成设备损坏~但不能完全消除电压不稳定造成的数据丢失故障。消防、安保门禁、环境,温、湿度报警等,、供电系统探测、服务器监控等方面都没有相应的设备进行监测~日常运维中也只是靠人力巡查~可靠性不高。在正常供电及普通天气环境情况下保障XXX单位数字化应用及其它相关的信息化业务的连续性。 ,二,现数据中心运行情况 数据中心除最新的IBM刀片服务器外~其它90%的服务器已过保修期~使用时间多为5年以上~全面进入硬件的不稳定周期。首先~为XXX单位信息化业务提供连续性服务的服务器为3台DELL R710及IBM刀片服务器~其中~DELL服务器均为09年12月购臵~10年启用~至今已达5年,硬件有不同程度的老化现象~会产生一些不知名 的故障。其次~提供数据存储的设备为两台网络存储~分别为EMC VNX3150,H3C 1540S~其中H3C存储为10年启用~至今已达5年~然而硬盘类存储配件的在所有硬件中使用期间最短~使用时间过长容易造成数据丢失现象~且现储存容量无法满足XXX单位信息化数据的业务增长速度~全为满载运行~2014年初~该存储设备已更换过3块硬。再有~尤其我校电力供应不稳定~经常无故停电~导致数据中心内所有设备非正常关闭~容易造成系统崩溃及数据丢失~难以保障系统业务的连续性。 二、事故,故障,现象 2015年7月18日晚上10:30分左右~收到服务器探测信号~短信通知~数据中心内有多台云服务器宕机~立刻作出判断~认为是XXX单位停电~马上通知主管领导及运维公司工程师~让工程师回XXX单位确认情况。当天晚上23时左右~运维工程师到达现场~确认为电力系统停止供电~数据中心所有设备非正常关闭~全部停止运行~所有信息化系统无法提供服务。几分钟后~XXX单位突然恢复供电~数据中心内所有设备自主启动~运维工程师紧急处理~按顺序恢复服务器~直到所有服务器及存储设备全部正常启动后才离开现场。 00:30分左右~XXX单位物业公司来电通知~由于3号楼供电线路故障~整栋楼电力系统中断运行~无法为数据中心提供电力保障。7月19日零时至4:30期间~物业公司抢修供电系统~电力系统时通时断~通过与物业公司电力工程师了解~期间有3次恢复通电与停电过程~最后在4:30分左右确立为线路故障~无法马上恢复。 在上述3次供电通断过程中~数据中心内服务器及存储设备在运维工程师离开现场后~经历了3次非正常关闭系统~造成无法预测硬件、系统文件及数据文件是否有损坏。全部信息化系统,包括信息门户及税收系统,停止运行~无法支撑迎新工作。 三、事故处臵经过 ,一,参与人员 组长: XXXXX 副组长:XXXXX、XXXXX、 实施人员:XXXXXX、XXXXXXX 、XXXXXX ,二,#工作# 项目名称 工作 重要程度 人员 电力系统恢复 市电供应、单位内部电力线路恢复、非常重要 XXXXXXXX 数据中心内UPS设备及电池检查、UPS 输出到数据中心所有机柜电路、各设 备供电连接检查 环境温度设备数据中心内空调设备的供电与恢复运重要 XXXXXXXX 恢复 行 网络设备配臵、1、核心交换机配臵检查, 非常重要 XXXXXXXX 物理链路检查 2、各接入光纤、连接到信息门户场地 ,1-201、1-301、图书馆、招就办办 公室,的配线间链路检查, 3、与各服务器物理连接检查。 物理服务器、存1、物理服务器硬件检查:CPU、内存、非常重要 XXXXXXXX 储服务器硬件本地硬盘、电口网卡、光口网卡、阵 检查 列卡, 2、存储服务器硬件检查:CPU、内存、 电口网卡、阵列卡、存储硬盘 存储设备,数1、两台存储设备系统检查 非常重要 XXXXXXXX 据,检查 2、系统、应用、数据库数据检查 各服务器底层1、虚拟化云计算系统恢复, 非常重要 XXXXXXXX 虚拟化云计算2、群集控制服务器恢复 系统架构检查 3、服务器群集、逻辑网络交换机、云 服务器、HA 、vMotion、DRS等服 务恢复 云服务器恢复1、oracle数据库服务器恢复,3台, 非常重要 XXXXXXXX ,针对信息门2、SQL数据库服务器恢复,2台, 户应用,~最小3、税收系统服务器恢复,1台, 化恢复 4、统一认证服务器恢复,1台, 5、LDAP服务器恢复,1台, 6、中间件服务器恢复,1台, 7、数据中心服务器恢复,1台, 8、信息门户系统服务器恢复,1台, ,三,信息系统恢复过程 7月19日7:30分运维工程师到达事故现场~7:45分信息中心管理人员到达~协助物业电力工程师检查电力系统~临时转接电缆~于10时20分恢复数据中心电力供应。 所有信息技术工程师到达现场~分工合作~从物理设备到逻辑云服务器进行精确检查。 实施: 根据虚拟化云计算系统结构要求~按顺序恢复所有物理设备~实施计划如下: 1、首先恢复所有物理链路~网络连通。 2、恢复存储服务器~正常运行~接入网络。 3、服务器集逐步恢复 1,最先需要恢复群集控制服务器~该服务器宿主于DELL R710里~IP:192.168.10.39, 2,恢复其它所有物理服务器~接入群集~让控制服务器智能 调试各云端服务器~两台DELL R710~IBM刀片服务器, 3,针对信息门户需要运行的服务器~以最快速度~最短时 间~最小代价~以最小系统运行模式~恢复XX单位急需业 务~使其恢复连续性。需恢复服务器列表及顺序如下表: 顺序 服务器名称 应用功能 数量 1 ORACLE数据库服务器 数据中心、统一身份认证、信息门户3 系统数据库 2 SQL数据库服务器 税收系统数据库 2 3 税收系统服务器 税收系统前端应用~财务人员收费应1 用 4 统一认证服务器 统一身份认证平台应用~用于身份验1 证~基础应用~必需开启后其它系统 才能正常运行 5 LDAP服务器 LDAP身份数据平台~用于身份数据1 识别~基础应用~必需开启后其它系 统才能正常运行 6 中间件服务器 金碟中间件应用平台~整合数字化平1 台基础应用~基础应用~必需开启后 其它系统才能正常运行 7 数据中心服务器 数据中心应用平台~数字化平台所有1 系统数据交换中心~基础应用~必需 开启后其它系统才能正常运行 8 信息门户系统服务器 信息门户系统前端平台~招生录取~1 补录~资料录入~收费标准设臵等 恢复实施过程: 时间 实施内容 设备状态 处理办法 10:30首先启动群集控制服务器所60分钟后~该服务11:30分~重新安分 在的宿主服务器:DELL 器还卡在VPXA进装虚拟化云计算系 R710,IP:192.168.10.39 程~一直无法自检统。30分钟后完 完成~初步判断为成。再次启动该服 系统文件由于多次务器 无故非正常关闭~ 导致损坏。 10:40核心交换机、网络链路检查正常 无 分 完毕~并恢复正常。 10:45确认两台存储服务器正常运11:10分~最终确无 分 行~并且进一步检查数据可认数据正常 靠性 10:45逐步启动群集内~其它6台每台服务器由于非无 分 物理服务器:DELL R710 两正常关闭~需系统 台~IBM刀片服务器4台。 修复关键文件~开 机时间不一~于 11:30分~6台物理 器相继进入系统~ 等待群集控制服务 器管理。 11:30重装群集控制服务器所在的无法正常启动 重新安装虚拟化云分 宿主服务器:DELL 计算系统。30分钟 R710,IP:192.168.10.39 后完成。 12:00再次启动群集控制服务器所依然无法正常启动 准备重新嫁接群集分 在的宿主服务器:DELL 控制服务器~暂时 R710,IP:192.168.10.39 获取群集控制权~ 先把最小应用系统 恢复~保障信息门 户正常运行。 12:05 安装嫁接群集控制服务器 无 在IBM刀片服务器 上安装群集服务器 13:00发现DELL R710宿主服务器~卡在VPXA进程 断开物理网络连接 分 IP:192.168.10.39~VPXA 服务异常是由于存储网络中 断~导致无法启动 13:10群集宿主服务器成功进入系成功进入系统 接通物理网络链路 分 统。 13:25群集控制服务器重新获取控各云服务器相继启调整云服务器启动分 制权~接管所有物理服务器 动 顺序~按上述实施 计划完成云端服务 器启动与运行。 14:00 恢复最小化应用系统~保障无 无 信息门户顺利开始 至此~7月19日14:00分正常完成最小化系统恢复~信息门户及税收已能正常运行~信息门户已能顺利开启。 7月19日晚~信息中心管理人员晚上11:30分~检查信息门户及税收系统~状态正常。于7月20日早上7:30~收到运维工程师通知~系统又出现故障~无法正常登录。7:45分到达现场~查看服务器日志及状态~发现是不知名原因~物理服务器部分关键进程停止运行~导致云端服务器全部断开~失去联系。处理办法:直接重启物理服务器~重新调整云端服务器~于9:00分全部恢复正常。 四、事故设备损坏影响范围及损失情况 事故造成XX小时信息化系统全面停止运行~影响信息门户提供 的XXXX服务~导致XXXXX无法使用~造成XXXXX不良效果~严重影响XXX单位形象,同时数据中心内部分物理设备损坏~具体损坏设备列表如下表: 设备名称 数量 存放地点 损坏情况 备注 DELL R710服务器 3 XXX单位数据物理网卡、文件由于多次无故 中心 系统损坏 关机 IBM刀片服务器 4 XXX单位数据文件系统损坏 由于多次无故 中心 关机 五、事故原因分析 电力系统供电需要XXX单位XXXX部门及物业管理公司共同确保~所有信息化设备没有电~无法启动~信息技术人员也无能为力。且电力供应的要求是稳定~稳压~够负载~需要备用线路。 服务器不知名故障大多数由于系统文件损坏导致~而文件损坏一般为多次非正常关闭系统,7月19日晚多次通断电~服务器经历3-4次无故关机,~因此~信息管理中心技术员计划全面维护所有服务器~重新构建虚拟化云计算系统。 六、事故暴露出的问 电力系统中断~线路故障为基础设施保障问题~信息网络管理中心对此只能提出要求~具体要求如下:1、XXX单位数据中心电力系统进线需增大容量,2、数据中心需独立开关控制,3、电力系统需有备份线路,4、电力系统维护期间~知会信息网络管理中心管理人员~若问题严重~切断数据中心电源~不要让检修时的通断电影响服务器, 5、若有停止~有预先通知的~需知会信息网络管理中心管理人员~及时处理服务器等相关设备,6、定期检查线路~确保数据中心电力供应正常。 XXX单位数据中心设备过于老旧~网络设施大多数使用10年以上~服务器已达5年~进入老化期~硬件会多发性出现故障。同时UPS需增加容量~最少能支撑数据中心使用6小时。 七、防范及整改措施 为防止事故重复发生~故拟采取的整改措施~要求重要设备存放地点定时专人巡视~全员学习~加强信息化设备使用的常识。 XXXX年计划信息化建设项目需针对数据中心升级改造~完成以下任务~1、数据中心门禁系统,2、环境系统监控,3、防火监控,4、温度控制,5、内部电力系统线路改造~增设备用线路,且按中XXXX级别的环境保护规范完成。 书中横卧着整个过去的灵魂——卡莱尔 人的影响短暂而微弱,书的影响则广泛而深远——普希金 人离开了书,如同离开空气一样不能生活——科洛廖夫 书不仅是生活,而且是现在、过去和未来文化生活的源泉 ——库法耶夫 书籍把我们引入最美好的社会,使我们认识各个时代的伟大智者———史美尔斯 书籍便是这种改造灵魂的工具。人类所需要的,是富有启发性的养 料。而阅读,则正是这种养料———雨果
/
本文档为【因电力故障数据中心虚拟化服务器停机导致信息系统崩溃的灾难恢复概述】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索