为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

AIX简单故障维护手册

2010-12-07 8页 pdf 117KB 16阅读

用户头像

is_030690

暂无简介

举报
AIX简单故障维护手册 AIX 简单故障维护手册 由于 IBM RS6000 机器机型多,出现故障的情况有很多种类。为了规范故障维护步骤,简化维护 过程,编写本手册以供参考。由于 AIX 故障种类多,不能一一列举,这里简单介绍部分故障判断, 定位,解决方法。 一. 故障的定义 .弄清楚系统发生了什么问题? .系统现在能做什么?不能做什么? .故障什么时候发生的? .有没有做平时不同的操作? .故障有没有规律?定时还是不定时?发生的频率有多高? .是一台机器出现故障还是多台机器故障?故障现象是否相同? .最近有没有做改动?如安装了新的硬件、软件,...
AIX简单故障维护手册
AIX 简单故障维护手册 由于 IBM RS6000 机器机型多,出现故障的情况有很多种类。为了规范故障维护步骤,简化维护 过程,编写本手册以供参考。由于 AIX 故障种类多,不能一一列举,这里简单介绍部分故障判断, 定位,解决方法。 一. 故障的定义 .弄清楚系统发生了什么问题? .系统现在能做什么?不能做什么? .故障什么时候发生的? .有没有做平时不同的操作? .故障有没有规律?定时还是不定时?发生的频率有多高? .是一台机器出现故障还是多台机器故障?故障现象是否相同? .最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。 检查机器是否存在故障 一般情况下,可以通过以下几种方法来收集错误信息 1、查看机器各种指示灯状态 机器上有许多指示灯即时说明机器运行的状态,这些指示灯的状态可以作为判断机器是否有故障 的一个依据。当指示灯的状态不正常时,需要引起注意。比如,当机器警告灯亮的时候,一般都 是机器的硬件出现问题,需要查看系统报错日志来查看具体的错误信息。 2、查看系统故障记录收集信息 errdemon 进程在系统启动时自动运行,记录包括硬件、软件及其他操作信息。故障记录文件为 /var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析。 也可以使用 errpt 命令来查看(普通用户权限也可使用) #errpt |more 列出简短出错信息 ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION 192AC071 0723100300 T 0 errdemon Error logging turned off 0E017ED1 0720131000 P H mem2 Memory failure 9DBCFDEE 0701000000 T 0 errdemon Error logging turned on 038F2580 0624131000 U H scdisk0 UNDETERMINED ERROR AA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATION TIMESTAMP: MMDDHHMMYY (月日时分年) T(类型): P 永久;T 临时; U 未知 (永久性的错误应引起重视) P:Permanent;T:Temporary;U:Unknow。 C(分类):H 硬件;S 软件;O 用户; U未知 #errpt -d H 列出所有硬件出错信息 #errpt -d S 列出所有软件出错信息 #errpt -aj ERROR_ID 列出详细出错信息 # errpt -aj 0502f666 <--- ERROR_ID 用大小写均可 例: LABEL: SCSI_ERR1 ID: 0502F666 Date/Time: Jun 19 22:29:51 Sequence Number: 95 Machine ID: 123456789012 Node ID: host1 Class: H Type: PERM Resource Name: scsi0 Resource Class: adapter Resource Type: hscsi Location: 00-08 VPD: <--- Virtal Product Data Device Driver Level.........00 Diagnostic Level............00 Displayable Message.........SCSI EC Level....................C25928 FRU Number..................30F8834 Manufacturer................IBM97F Part Number.................59F4566 Serial Number...............00002849 ROS Level and ID............24 Read/Write Register Ptr.....0120 Description ADAPTER ERROR Probable Causes ADAPTER HARDWARE CABLE CABLE TERMINATOR DEVICE Failure Causes ADAPTER CABLE LOOSE OR DEFECTIVE Recommended Actions PERFORM PROBLEM DETERMINATION PROCEDURES CHECK CABLE AND ITS CONNECTIONS Detail Data SENSE DATA 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 3、控制面板上的 LED 代码 一般为 8 位代码,通常系统故障灯会同时亮起。某些机型还会同时显示故障设备位置 代码。 .4 位代码,通常是 Exxx。 .3 位代码,通常为 0yyy,只看后 3 位。 .8 位和 4位代码可查看系统服务手册 (Service Guide)。 3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System)。 .闪动的 888, 系统崩溃,硬件或软件原因造成。按 reset 键会显示更多内容。 888-102 一般为软件故障(888-102-207 例外) 。系统会产生一个 dump。 888-102-xxx-0C9 系统正在做 dump, 请等待。 888-102-xxx-0C0 系统 dump 完成,可关电重启。 888-103 或 105 硬件故障,一般有 SRN 代码及位置代码。 4.SMS (System Management Service) 故障记录 当主控台出现键盘图标后(LED 显示 E1F1 时)按 1 键。进入 SMS 菜单 选择"Utilities" 选择"Error Log", 抄下 8位故障代码 (在 SMS 中还可以更改系统启动顺序表) 5.MAIL #mail 系统会向 root 用户发 mail 报告出错信息。通常系统出现故障后没有进行检查修复,系统会定时 提醒 root。 6.运行故障诊断程序(Diagnostic),对系统硬件进行检查和诊断。 当发现有硬件故障时应立即使用 diag #diag > 选高级诊断(Advance Diagnostic) > 选问题诊断(Problem Determination) 或选系统检查(System Verification) (选 PD 会对 系统错误记录进行分析) diag 运行后会给出 SRN 代码,故障设备名称及百分比,地址代码等。 对于 PCI 机型应在系统报错 7天之内运行 diag 程序对出错记录里的 sense 数据进行分析。 7.查看系统重要记录日志 在某些情况下,系统的错误日志无法记录一些错误信息,这时,就需要查看相关的系 统日志。这些日志包括系统启动日志,smit 日志,HACMP 切换日志等等,以下对这些日志进行说 明。 a、系统启动日志 系统启动日志记录系统在启动过程中的详细信息,包括设备识别,内核加载,文件系 统装载,后台进程的启动等信息。这些信息在错误日志没有完整的记录,但是通过查看启动日志, 可以得到详细的信息。查看系统启动日志的命令为:alog - o - t boot b、smit.log smit.log 记录了通过 smit 菜单执行命令的过程和结果信息。通过查看 smit.log 可以 知道在系统上进行操作的历史信息,查看这些命令执行的结果是否正常,从而判断是否存在隐患 或故障。Smit.log 在系统根目录下,通过 cat 命令就可以查看。 c、HACMP.OUT Hacmp.out 文件记录 HACMP 发生切换时候的详细过程和结果信息。查看 hacmp.out 文 件可以知道系统出现什么原因而引起切换,从而判断是否有故障发生。 二、判断故障类别 1.硬件故障 通常将硬件故障分为以下几个类别: IBM 小型机故障定位方法包括小型机 I/O 柜上的显示面板上的 Checkpoints 信息, Error Code 和 SRN。 Checkpoints 检查点是系统加电 CMOS 初始化程序(initial program load (IPL))运 行后显示在 I/O 柜的显示面板上一系列信息。 IPL 流程 当交流电源接到系统后,IPL 流程就开始了,IPL 流程包括四个步骤: .Phase 1: Service Processor 的初始化 Phase 1 开始于交流电源接到系统后,直到 OK 显示在 I/O 柜上的显示面板上为止。在 这个步骤会显示 8xxx 或 9xxx checkpoints 代码 。 . Phase 2: 由 Service Processor 引导的硬件初始化 Phase 2 开始于按下 I/O 柜上的白色电源开关。在这个步骤会显示 9xxx checkpoints 。91FF 是最后的代码标志着第三步骤的开始 . Phase 3: 系统固件的初始化 在 Phase 3, 一个系统处理器接管控制并继续初始化系统资源, 在这个步骤会显示 Exxx。E105 是最后的代码标志着第四步骤 AIX 启动的开始。在这个过程中还会显示各种位置码 ( 位置码代表着系统的每一个部分) . Phase 4: AIX 启动 当 AIX 开始启动时,显示面板上的代码为 0xxx ,同时位置码会出现在第二行。当 AIX 的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现。 Error Code 当系统运行有错误发现时,一个 8位码会显示在显示面板上,同时在 第二行显示相对应问题硬件的位置码。 SRNs (Service request numbers,服务请求码 ) 当系统运行有错误发现时,SRNs 码会以 xxx-xxx 的形式显示在显示面板上,同时在 AIX 的 error log 中也会有记载。用 diag 命 令进行检测,diag 步骤如下: #diag > 选高级诊断(Advance Diagnostic) > 选问题诊断(Problem Determination) 或 选系统检查(System Verification) (选 PD 会对系统错误记录进行分析) diag 运行后会给出 SRN 代码,故障设备名称及百分比,地址代码等。 2. 操作系统故障 系统无法正常操作,命令无法正常执行,或者系统频繁地报系统问题,都有可能是操 作系统故障造成的。软件故障情况错综复杂,下面列举几个常见案例的故障处理方法。 1)文件系统空间不够。 查看有没有“满”的文件系统。特别是/、/var、/tmp,不要超过 90%。文件系统满可 导致系统不能正常工作,尤其是 AIX 的基本文件系统。如/ (根文件系统)满则会导致用户不能登 录。用 df –k 查看。 # df -k (查看 AIX 的基本文件系统) Filesystem 1024-blocks Free %Used Iused %Iused Mounted on /dev/hd4 24576 1452 95% 2599 22% / /dev/hd2 614400 28068 96% 22967 15% /usr /dev/hd9var 8192 4540 45% 649 32% /var /dev/hd3 167936 157968 6% 89 1% /tmp /dev/hd1 16384 5332 68% 1402 35% /home 除/usr 文件系统,其他文件系统都不应太满,一般不超过 80%。 处理方法 1:删除垃圾文件 # du -sk * |sort -rn |head 查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。(要 区分哪些目录是文件系统的 mount point,哪些是文件系统的子目录)删除文件,释放空间。有 时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。只有当这个程序停 止后空间才释放,有时甚至需要重启系统。 处理方法 2:增加文件系统大小 # smitty chjfs 或 命令(速度快一些) 文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。 2) 检查文件系统的完整性 # umount filesystem_name # fsck -y filesystem_name 注意:文件系统必须先 umount,再做检查和修复,否则可导致未 知的后果。 3)查看卷组信息(lsvg -l vg_name) 有没有"stale"状态的逻辑卷。 若有,用 syncvg 命令修复"stale"逻辑卷。 stale [steil] n. (牲畜等的)尿 adj.不新鲜的, 陈腐的, 疲倦的, 陈旧的 vt. 使变旧, 走味 vi.变陈旧, 变无味, 失时效, 撒尿。 4)检查内存交换区(paging space)使用率(lsps -s) 使用率是否超过 70% 。 若有则用 chps –sX pgname 增加 X个 PP 或用 mkps –a –n –sX myvg 在 myvg 上增加一个 PP 数为 X的内存交换区。 3、外连设备故障 与 RS6000 机器相连的其他设备发生故障时,会对主机造成影响,从而引发故障。比如网 络交换机故障,外置存储故障等等。 常见故障记录汇总: 1)7133 硬盘故障 故障:在 AIX 系统中用#errpt –aj|more 命令查看到有描述为“pdiskx error” 级别显 示为“H”类型显示为“P”。 分析:含有该报错的服务器所连接的存储可能发生物理硬盘损坏的故障。 用户可以用以下命令察看 7133 RAID 的状态: 在 AIX 系统中用#smitty ssaraid List Status of all Defined SSA RAID Arrays 当 RAID 中的硬盘出现问题时,此 RAID 的状态是“degraded” 可用以下命令判断 硬盘是否被阵列(Array)剔除(reject): 在 AIX 系统中用#smit ssaraid List/Identify SSA Physical Disks List Rejected Array Disks 如果看到 pdiskx 被阵列剔除,说明该 pdiskx 存在物理 故障。 解决:更换该 pdiskx 的物理硬盘 2)机器电源故障 故障:查看 IBM 服务器如果前面板上有黄色报警灯亮起,并且在服务器电源处电源灯 亮黄色报警灯或者有不正常闪烁。在在 AIX 系统中用#errpt –aj|more 命令查看到有描述为 “power error”级别显示为“H”类型显示为“P”。 分析:按照该 ERRPT 报错信息与服务器面板及其电源外部报警灯显示情况,可以确定 服务器电源出现硬件故障,必须进行更换。按照服务器的不同机器类型可以采取停机更换电源和 不停机更换电源的方法。 解决:更换该出现故障的电源。 3)机器环境故障 故障:在 AIX 系统中用#errpt –a|more 命令查看到有描述为“TEMPERATURE UNACCEPTABLE”级别显示为“H”类型显示为“P”。 分析:按照该 ERRPT 报错信息可以确定服务器运行的环境不在健康的环境中,机房温度 过高,不符合在 20 摄氏度的环境中。 解决:使服务器所在的机房环境达到 20 摄氏度恒温状态。 4)文件系统故障 故障:在 AIX 系统中用#errpt –a|more 命令查看到有描述为“FILE SYSTEM CHECK REQUIED”级别显示为“H”类型显示为“P”。并且说明某个文件系统需要用 fsck 命令进行 check。 分析:按照该 ERRPT 报错信息可以确定该文件系统存在故障,需要人工对其文件系统 进行 fsck 操作,从而确保数据的安全性、可靠性和可用性。 解决:停应用后进行 fsck 该文件系统。 5)内置硬盘故障 故障:发现硬盘无法进行写操作。 分析:对数据库所在的物理硬盘进行写文件操作,如果写文件操作失败,从而确定该物 理硬盘有故障发生,必须及时更换。 解决:停数据库后进行物理硬盘的更换。 6)SSA 卡电池故障 故障:在系统中用 errpt 命令查看错误日志,发现有大量 ssa adapter 报错,错误级别 显示为“H”类型显示为“P”。错误信息为 ssa adapter performance degrade。 分析:对 ssa adapter 运行 diag,返回 SRN 代码为 4252A。根据 IBM 资料,信息如下: 4252A Description: The supply voltage to the Fast-Write Cache Option Card is low. The card has switched to Self-Refresh mode. Action: In the sequence shown, exchange the FRUs for new FRUs. Possible FRUs: Fast-Write Cache Option Card (90%) (“Removing the Fast-Write Cache Option Card of an Advanced SerialRAID Adapter” on page 332). SSA adapter card (10%) 根据此信息,判断是 raid 卡上 cache 电池电量不足,需更换电池。 7)磁带机故障 故障:磁带机面板上亮黄灯。 分析:磁带机磁头脏,导致读盘不正常,或无法读盘。 解决:用清洗带清洗磁头。 8)文件空间无法释放 故障:某个日志文件不停增大,在线清空文件后,空间仍未释放。 分析:在线清空文件时,系统对文件存储指针(i-node)没有被更新,所以空间没有被 释放 解决:umount 该文件所在的文件系统,对该文件系统进行 fsck -y 即可。 9)机器启动故障 故障:机器重新启动之后,IP 地址没有被加载,tcp/ip 的后台进程没有启动 。 分析:查看系统 boot 日志(alog –o –t boot),发现系统启动调用 rc.net 文件时 报错,错误信息为 permission denied,检查 rc.net 的权限,发现已被更改,无执行权限。 解决:将 rc.net 的权限更改为 544 101 100 100 。 10)LPAR 启动故障 故障:一台 P630,划分两个 lpar,发现只能同时启动一个 lpar,另外一个 lpar 无法启 动,错误信息为 already has a service authority partition 。 分析:在 partition 属性中有一个 service authority 的选项,选上之后说明微码升级 时是通过该分区进行。一台机器的所有 lpar 上只能有一个分区有这个选项属性。查看两个分析 属性之后,发现两个分区都有这个属性,所以引起冲突,只能有一个可以启动。 解决:将一个分区的 service authority 属性去掉。 11)镜像文件系统故障 故障:系统中有 stale 状态的文件系统。 分析:文件系统的状态有:open, closed, syncd, stale。前两项代表当前文件系统是 否可以访问,后两项代表文件系统数据是否完全。Syncd 是指数据已同步这个应该是正常时显示 的,stale 是指文件系统数据未同步,这种状态是不正常的。 解决:用 syncvg 命令修复"stale"逻辑卷。
/
本文档为【AIX简单故障维护手册】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索