为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

SG-HCT说明

2017-12-02 50页 doc 1MB 21阅读

用户头像

is_729658

暂无简介

举报
SG-HCT说明SG-HCT说明 SG HCT 用户手册 v1.1 SG HCT user manual v1.1 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 文档受限于ALU内部 编制 Prepare : 龚晓波 杜少强 审核 Review : 郝永新 批准 Approve : All rights reserved. Passing on and copying of this document, use and communication of its contents not per...
SG-HCT说明
SG-HCT说明 SG HCT 用户手册 v1.1 SG HCT user manual v1.1 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部。 文档受限于ALU内部 编制 Prepare : 龚晓波 杜少强 审核 Review : 郝永新 批准 Approve : All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 1/62 Document Number 更改历史 Revision history 更改次第 更改条号版本 日期 编制 审核 批准 CHANGE CHANGE ED DATE PREPARE REVIEW APPROVE 未经公司书面授权,任何人不得擅自 TIMES ITEM 传播、复制、交流与使用本文档的部分或全部内容。 龚晓波 2009-4-1.0 杜少强 27 龚晓波 2009-5- 杜少强 1 2009-5-杜少强 7 2009-5-郝永新 14 HCT_daily_ generate.pl 龚晓波 2009-5-2009-05-27 27 和hctgrep 内容 添加pcb 和hct对于2009-6-杜少强 历史记录的2 压缩和删除 的操作说明 增加HCT 2009-6-All rights reserved. Passing on and copying of this 杜少强 工具的目录 document, use and communication of its contents not 3 说明 permitted without authorization from Alcatel Shanghai Bell. 修改使之适2009-8-杜少强 合SG 12 版本 ED 文件编号 2/62 Document Number 修改使之适2009-8-1.1 1 龚晓波 28 合SG 去掉MGC_ 2009-9-3 2 龚晓波 关键字 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 3/62 Document Number 目录 Revision history ............................................................................................ 2 1. HCT 的功能描述 ....................................................................................... 7 2. crontab的说明 ........................................................................................ 7 3. HCT 工具的具体目录说明 .......................................................................... 7 4. HCT 的配置说明 ....................................................................................... 8 4.1. hct配置相关说明 ........................................................................... 8 4.1.1检查项的配置 ................................................................................................... 8 4.1.2 hct.cfg的内容 .............................................................................................. 8 4.1.3 S12告警过滤配置文件,LINK过滤文件,路由过滤文件 ....................... 9 未经公司书面授权,任何人不得擅自 4.2. 配置脚本hctcfg ............................................................................. 9 传播、复制、交流与使用本文档的部分或全部内容。8.2.1 修改检查项的相关操作。 ........................................................................ 11 8.2.2 修改s12 告警过滤的配置 ......................................................................... 13 8.2.3 修改s12 LINK 过滤的配置 ..................................................................... 15 8.2.4 修改s12 路由过滤的配置 ......................................................................... 17 5. PCB 的配置说明...................................................................................... 19 5.1. sysmon.cfg的说明 ...................................................................... 19 5.2. alarm_level.cfg的说明 ................................................................. 20 5.2.1. 呼叫域门限设置 ........................................................................................ 20 5.2.2. 域门限设置 ........................................................................................ 21 6. PCB的log描述 ...................................................................................... 22 6.1. Ovmon Report ............................................................................ 22 6.2. Unix Report ................................................................................ 22 6.3. Unix Caps Report ....................................................................... 23 6.4. 协议域的原始log ......................................................................... 23 6.5. 历史log的压缩和删除 .................................................................. 23 7. HCT 的log 描述..................................................................................... 24 7.1. Result log .................................................................................. 25 7.2. Raw log ....................................................................................... 27 7.3. HCT 每日统计log ........................................................................ 28 All rights reserved. Passing on and copying of this 7.4. HCT 月度统计log ......................................................................... 30 document, use and communication of its contents not permitted without authorization from Alcatel Shanghai 7.5. Log的同步 ................................................................................... 33 Bell. 7.6. 历史log的压缩和删除 .................................................................. 33 8. HCT 测试项 ........................................................................................... 34 8.1. HCT 测试项的简单描述 ................................................................. 34 版本 ED 文件编号 4/62 Document Number 8.2. HCT 测试项的详细描述 ................................................................. 38 8.2.1 SG_1 CALL EGNINE 的告警检查 ........................................................... 38 8.2.2 SG_2 检查call engine 的link 状态 .......................................................... 40 8.2.3 SG_3 检查call engine 的routeset 状态 .................................................... 41 8.2.4 SG_7 检查call engine的模块restart ........................................................ 42 8.2.5 SG_17 检查call engine是否有ELM告警 ............................................... 43 8.2.6 SG_6 检查call engine模块状态............................................................... 44 8.2.7 SG_5 检查call engine 的模块负荷 (PCB log related) ......................... 45 8.2.8 SG_29 检查call engine和call protocol的时间一致性 ............................ 46 8.2.9 SG_28 检查m3ua,m2ua的告警信息...................................................... 46 8.2.10 SG_9 检查所有unix模块的状态 .............................................................. 47 8.2.11 SG_9 检查所有的unix模块是否有24小时之内的重启.......................... 48 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。8.2.12 SG_13 检查双侧oam的文件“/var/log/messages” ................................... 49 8.2.13 SG_10 搜索PCB记录,检查所有unix模块cpu和内存状态 ................. 50 8.2.14 SG_14 搜索PCB记录,检查双侧oam的disk使用情况 ........................ 51 8.2.15 SG_15 检查主用侧oam到itce的数据同步 ............................................. 51 8.2.16 SG_16 检查备用oam到主用oam的oracle数据同步 ............................. 52 8.2.17 SG_18 在所有的unix itce中检查和elm相关的路由情况 ....................... 53 8.2.18 SG_19 在双侧oam中检查ntp server的状态 ........................................... 53 8.2.19 SG_24 逐个检查flexmgr的运行状态 ....................................................... 54 8.2.20 SG_25 逐个检查flexmgr的告警状态 ....................................................... 55 8.2.21 SG_26 逐个检查flexmgr 运行时间 .......................................................... 56 8.2.22 SG_27 逐个检查flexmgr固定地址是否可达 ........................................... 57 8.2.23 SG_30 检查呼叫域版本一致性 ................................................................. 57 8.2.24 SG_31 检查协议域版本一致性 ................................................................. 58 8.2.25 SG_32 搜索PCB记录,检查所有ITCE的cpu I/O wait数据 ................. 59 8.2.26 SG_34 搜索PCB记录,检查所有协议域模块的网口流量数据 ............. 60 8.2.27 SG_23 检查双侧oam的重要文件的cksum值是否一致 ......................... 61 All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 5/62 Document Number 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 6/62 Document Number 1. HCT 的功能描述 HCT 作为daily check 的自动运行工具,其功能分为几大块 HCT 的配置说明 部分配置可以用脚本hctcfg来实现配置,配置工具运行前必要的参数,包括要做的HCT 测试项目,HCT 测试项目运行的时间频率和是否发送短消息的标志,主要gateway的配置,重要ISUP TKG的配置。 HCT 测试项的说明 另一部分,是针对每个case 的测试项,是对daily check 的测试项目中可以转化为脚本的项目的脚本实现,主要是自动运行测试项,然后根据测试项的运行原始log 进行判断产生result log,测试项分为 3大领域: call engine(S12), call protocol(unix), flex manager。每个测未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。试项以 SG_XX 命名, XX 为数字,表示具体的项目号 HCT 的log 说明 HCT 的log 放在/var/log/HCT 的目录中,每天会产生一个用日期命名的目录,备用oam中的目录中有result log 和raw log,主用的oam只同步了result log。 每天0:10都会产生前一天工具检查结果的统计信息:日报,每个月的第一天的1:10会产生前一个月度的检查结果的统计信息:月报。 2. crontab的说明 /etc/crontab将定义以下HCT的任务。 可以看到大多数任务都带了-s的参数,该参数说明程序只在备用的oam中被执行。这个配置是HCT的缺省配置,只在备用的oam中执行检查的程序,适用于在线局。 若是某些模型机架只配备了一块OAM,这时由于不存在standby OAM,程序是不会启动的。对于只配备了一块OAM的机架,可以将crontab中-s参数改成-a参数,HCT All rights reserved. Passing on and copying of this 将在主用的oam中执行,适用于只有一个oam的模型机架。 document, use and communication of its contents not 3. HCT 工具的具体目录说明 permitted without authorization from Alcatel Shanghai Bell. 1. pcb脚本存储目录 /usr/local/sbin/pcbtool 版本 ED 文件编号 7/62 Document Number 2. pcb历史记录的存储目录 /var/log/pcb 3. pcb历史记录压缩文件的存储目录 /var/log/pcb/pcbTar 4. hct 脚本存储目录 /usr/local/sbin/HCT 5. hct配置文件存储目录 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 /usr/local/sbin/HCT/config 6. hct历史记录的存储目录 /var/log/HCT 7. hct历史记录压缩文件的存储记录 /var/log/HCT/hctTar 4. HCT 的配置说明 4.1. hct配置相关说明 4.1.1检查项的配置 Hct关于检查项的配置包含两个文件:check_item.cfg_common,通用的文件,里 面包含了hct已经实现的所有的检查项;check_item.cfg,针对每个现场的检查项 配置文件,最初,这个文件和上面的common文件是一致的,之后,现场可以根 据自己的配置增减check_item.cfg中的内容。 检查项的删除,添加,检查项频率和是否发送短消息标志的修改可以通过配置脚 All rights reserved. Passing on and copying of this 本hctcfg来实现。详细的内容在“hct 检查项通过配置脚本hctcfg来设置”一节 document, use and communication of its contents not 中说明。 permitted without authorization from Alcatel Shanghai Bell. 4.1.2 hct.cfg的内容 版本 ED 文件编号 8/62 Document Number 目前,里面包含下面几部分的内容,文件路径: /usr/local/sbin/HCT/config/hct.cfg。 4.1.1.1 oam的share message buffer配置 相关的检查项:SG_20,定义了oam的share message buffer达到告警级别的 情况:吊死的buff占总的可用buff的百分比。初始值和和格式如下,现场可 以根据需要修改下面的数字内容,这部分的修改需要手工来完成,并且同时 修改两侧oam的hct.cfg文件。 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。4.1.1.2 oam important文件配置 相关的检查项:SG_23,定义了需要在双侧oam检查cksum值的重要文件, 假如两个cksum如果不一致,会告警。初始定义情形如下,这部分的修改需 要手工来完成,并且同时修改两侧oam的hct.cfg文件。 4.1.3 S12告警过滤配置文件,LINK过滤文件,路由过滤文件 告警过滤文件: LINK过滤文件: 路由过滤文件: 4.2. 配置脚本hctcfg All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 下面的是欢迎界面:1, 修改检查项 2, 修改s12告警的过滤选项 3, 修改s12 link的过滤选项 4, 修改s12 路由的过滤选项 版本 ED 文件编号 9/62 Document Number q, 退出配置脚本 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 输入主要分3类, 数字执行相关规定的操作, m返回上一级菜单, q退出配置脚本。 注意:若是两个oam都存活的情况下,在退出配置脚本的时候,hctcfg的脚本会提 示你通过文件的同步,保证两个oam的文件一致性。 一般情况下,都需要选择y来拷贝文件,保证文件的一致性。如下面所示: All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 10/62 Document Number 8.2.1 修改检查项的相关操作。 修改检查项的总菜单: 1,显示检查项 2,删除检查项 3,添加检查项 4,修改检查项属性 未经公司书面授权,任何人不得擅自 q,退出配置脚本 传播、复制、交流与使用本文档的部分或全部内容。 m,返回上一级菜单 4.2.1.1 显示检查项的操作: 4.2.1.2 删除检查项的操作 All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 输入相关的检查项编号:SG_XX,会从文件check_item.cfg中删除相关的检查项, 而且注意检查项编号需要已经包含在check_item.cfg文件中,否则会认为非法。输 入yes确认删除,输入no返回上级菜单。 版本 ED 文件编号 11/62 Document Number 4.2.1.3 添加检查项的操作 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 添加检查项需要输入检查项编号,输入的检查项编号必须包含在 check_item.cfg_common文件中,而且不包含在check_item.cfg文件中,否则会提示 没有检查可以添加。 添加检查项需要确认,y添加,或者no返回添加的开始菜单。 4.2.1.4 修改检查项的属性。 根据提示输入检查项的编号,SG_XX的格式。 All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 12/62 Document Number 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 可以修改检查项的频率和是否发送短消息的标记,修改之后都需要输入y来确认 修改,然后修改文件中的内容。输入n可以撤销修改,放弃修改文件中的内容。 8.2.2 修改s12 告警过滤的配置 配置s12 告警过滤的主菜单如下: 分为3部分: 1, 显示s12 告警过滤的当前配置 2, 添加s12 告警过滤 3, 删除s12 告警过滤 4.2.2.1 显示s12 告警过滤的当前配置 All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 13/62 Document Number 告警过滤可以输入告警的全部内容,也可以输入告警的部分内容,过滤的 时候可以起到部分匹配的作用。 4.2.2.2 添加s12 告警过滤 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 添加S12告警过滤,可以输入告警的全部内容,也可以输入告警的部分内 容,输入一个告警后,输入回车确认。输入所有告警之后,以“.”结束输 入。 4.2.2.3 删除s12 告警过滤 All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 14/62 Document Number 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 删除告警过滤的时候,会对已经配置的每一个告警编号,输入编号,可以 同时输入多个,以空格隔开,输入回车确认删除。最后输入m返回上一级 菜单。 8.2.3 修改s12 LINK 过滤的配置 配置s12 LINK 过滤的主菜单如下: 分为3部分: 1, 显示s12 LINK过滤的当前配置 2, 添加s12 LINK过滤 3, 删除s12 LINK过滤 All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 4.2.3.1 显示s12 LINK过滤的当前配置 版本 ED 文件编号 15/62 Document Number LINK过滤的时候是按照LINK ID来过滤的。 4.2.3.2 添加s12 LINK过滤 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 添加S12 LINK过滤,每行输入一个LINK ID,每行结束输入回车。 最后以“.”结束输入,返回上一级菜单。 4.2.3.3 删除s12 LINK过滤 All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 16/62 Document Number 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 删除LINK过滤的时候,会对已经配置的每一个LINK编号,输入编号, 可以同时输入多个,以空格隔开,输入回车确认删除。最后输入m返回上 一级菜单。 8.2.4 修改s12 路由过滤的配置 配置s12 路由过滤的主菜单如下: 分为3部分: 1, 显示s12 路由过滤的当前配置 2, 添加s12 路由过滤 3, 删除s12 路由过滤 All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 4.2.4.1 显示s12 路由过滤的当前配置 版本 ED 文件编号 17/62 Document Number 路由过滤路由名称,每一行输入一个路由name。 4.2.4.2 添加s12 路由过滤 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 添加S12 路由过滤,每行输入一个路由 name,每行结束输入回车。 最后以“.”结束输入,返回上一级菜单。 4.2.4.3 删除s12 告警过滤 All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 18/62 Document Number 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 删除路由过滤的时候,会对已经配置的每一个路由编号,输入编号,可以 同时输入多个,以空格隔开,输入回车确认删除。最后输入m返回上一级 菜单。 5. PCB 的配置说明 PCB里的配置文件:sysmon.cfg 和 packagename_alarm_level.cfg。 PCB没有提供专门的interface修改文件,通常,我们可以用vi来编辑配置文件。 5.1. sysmon.cfg的说明 sysmon.cfg的全路径是/usr/local/sbin/pcbtool/sysmon.cfg。 sysmon.cfg里定义了一些和机架相关的信息。其中如下信息在现场可能需要工程师 自行修改后才能使得pcb能够正常运行。 呼叫域的登陆帐号和密码 All rights reserved. Passing on and copying of this document, use and communication of its contents not 请注意用户名和密码不要错位。 permitted without authorization from Alcatel Shanghai Bell. sysmon.cfg中其他信息的说明: 版本 ED 文件编号 19/62 Document Number 上述信息有pcbInstall.sh自动根据现场实际情况复制,无须人工修改。 上述信息是系统默认的,HOST0表示PCB优选的PLDA登陆地址,HOST1是第二选择地址。实际上172.16.80.1就是Standby PLDA的逻辑地址,172.16.80.0是Active PLDA的逻辑地址。 PCB在的时候,考虑优选standby PLDA登陆。因为通常CMC等第三方设备被设计成自动和active PLDA通信。PCB优选standby PLDA登陆,可以避免呼叫域的MPTMON资源限制。 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 这两个定义,也是系统默认的。第二个定义是指现场统计的实际设置间隔。这个设置是为了今后的一个功能设置的。 5.2. alarm_level.cfg的说明 alarm_level.cfg的全路径是/usr/local/sbin/pcbtool/xxxx_alarm_level.cfg 其中xxxx是表示package的名称,比如0843D08,0843D14。PCB考虑到每个基版的performance门限可能不一致,这样的设计可以使得PCB能够对每个版本的每个模块进行单独调整。 5.2.1. 呼叫域门限设置 呼叫域的参数设置如下,通常和版本没有关联,因此目前每个版本都默认设置一样的。MBUF/UBUF仅PLDA和其他模块不同,因此分开来设置。 All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 20/62 Document Number 5.2.2. 协议域门限设置 对于协议域,CPU, Memory, CPUIowait和网口的速率是作为common的参数的。考虑到不同种类的模块可能对CPU, Memory定义了不同的门限,因此对于具体的模块,我们又可以定义不同的门限。目前CPU的门限还是一致的,CPU usage超过70%为warning,超过90%为fatal。下面以CoCo为例 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 可以看到CoCo在Memory的门限定义,Free空间低于15M为warning,低于7M为fatal。本文的例子是根据843D08提供的数值,其他版本线可能会有所不同。因此alarm_level.cfg在HCT推出的版本中可以针对每个版本线做单独定义。 对于OAM,由于这种模块是带有硬盘的,因此Memory使用到了虚拟内存,我们主要对swap空间进行考核。 OAM swap空间低于1G为warning,低于750M为fatal。 OAM disk空间门限定义 All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 21/62 Document Number 6. PCB的log描述 所有PCB的log存放在/var/log/pcb中,这篇章节简单介绍了各个log记录了哪些指 标参数。目前PCB的输出主要供研发应用。PCB被正式包含在HCT中,对于现场工程 师,可以通过阅读HCT生成的报告来确认是否有告警。本章节的目的是供熟悉系统内 部参数指标的工程师参考。 6.1. Ovmon Report Log的全名是ovmonReport_date。例如ovmonReport_2009-05-22,存放在/var/log/pcb 中。这个log是由S12ModuleStatus.pl这个程序生成的。可以通过more /etc/crontab来查 看该程序的调用频率。 输出内容如下: 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 模块的类型由系统的实际情况决定。 门限则参考“5.2.1”这个章节。 6.2. Unix Report Log的全名是unix_date。例如unix_2009-05-22,存放在/var/log/pcb中。这个log是 由sysmon这个程序生成的。可以通过more /etc/crontab来查看该程序的调用频率。 输出内容如下: All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 22/62 Document Number 目前HCT第一版的PCB已经支持双核CPU,因此大家可以看到CPU0这个字样。对于单核的板子,不会出现CPU1的字样。 在这个log中,如果模块不活,则会在Error Board List中显示。Normal,Warning,Fatal的提示是根据“5.2.2”章节定义的。 另一个log全名是unixReport_date。例如unixReport_2009-05-22,也存放在/var/log/pcb中。这个log是为了后续将本log直接转换成xls文件。这个log并不适合人直观阅读,也不适合grep找关键字段。 如果是为了生成xls,以及后续做透视表,可以使用这个文件。 6.3. Unix Caps Report Log的全名是unixcaps_date,例如:unixcaps_2009-05-22,存放在/var/log/pcb中。未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。这个log是由unixcaps.pl这个程序生成的。可以通过more /etc/crontab来查看该程序的调用频率。 输出内容如下: 这个输出,PCB没有对应的定义门限,数据是从oracle中获取。已经确认CoCo的Caps是准确的,而SIP的CAPS,目前确认由于机制原因,相关数值不能代表某个SIP模块的CAPS。将数据呈现出来是为了让大家对本局的SIP总呼叫CAPS有感性认识。 6.4. 协议域的原始log 这部分log主要是供给专家,调查问题时使用的。路径是/var/log/pcb下面已日期命名的目录中。例如:/var/log/pcb/20090522目录中存储了2009年5月22号产生的协议域的原始log。 6.5. 历史log的压缩和删除 All rights reserved. Passing on and copying of this 压缩后的log存储目录:/var/log/pcb/pcbTar。 document, use and communication of its contents not 为了减少历史记录占用的oam的硬盘空间,每个月的1号,11号和21号在hct中调permitted without authorization from Alcatel Shanghai Bell. 用hctlog_handle.pl压缩和删除pcb产生的历史log。 1. 定期压缩历史记录。 每个月的1号,11号和21号执行压缩的任务,压缩50天前产生的历史记录生 成一个*.tar.gz文件,同时删除这些历史记录。 版本 ED 文件编号 23/62 Document Number 举例如下: 3月1号压缩从1月1号到1月9号生成的log,生成文件Site-id_pcb_Year- Month_[01].tar.gz,同时删除1月1号到1月9号之间生成的log。 3月11号压缩从1月10号到1月19号生成的log,生成文件Site-id_ pcb_Year- Month_[02].tar.gz,同时删除1月10号到1月19号之间生成的log。 3月21号压缩从1月20号到月末生成的log,生成文件Site-id_ pcb_Year- Month_[03].tar.gz,同时删除1月20号到月末之间生成的log。 2. 定期删除压缩生成的*.tar.gz文件。 每个月的1号删除那些半年前生成的*.tar.gz文件。 举例如下: 2009-03-01删除2008年9月份的压缩文件。 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 7. HCT 的log 描述 Site_id_s12_2009-02- 25__result.log Site_id_2009-02-01- summary_DailyReport.l og Site_id_flex_2009-02- 25_result.log Site_id_2009-02-25- summary_DailyReport .l og Site_id_unix_2009-02- 25_result.log Site_id_2009-02-29- summary_DailyReport .l og All rights reserved. Passing on and copying of this document, use and communication of its contents not Site_id_2009-02-permitted without authorization from Alcatel Shanghai summary_MonthlyReport .log Bell. 版本 ED 文件编号 24/62 Document Number 简单介绍log的结构: HCT 的log 分为 三大部分, S12 部分,unix 部分, flex manager 部分,这几部分内容,都是通过各自的脚本的调用生成的. 所有的log 都放在 /var/log/HCT 目录中,并且在 /var/log/HCT 目录里面,每天生成的log 都放在按照日期生成的目录里面 /var/log/HCT/yyyy-mm-dd。Log在备用的oam中产生后会及时同步到主用的oam的相同目录中,保证两个oam的数据一致性。 例如, /var/log/HCT/2009-02-03 存放了 2009-2-3 生成的log /var/log/HCT/2009-02-23 存放了 2009-2-23生成的log 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 7.1. Result log 按照3种不同的类型的hct检查项目,每种类型的检查每天生成一个log,每次同一个项目的检查结果在同一个文件的结尾处叠加进去, 对于检查项目的log 定义以如下格式定义: site_id_[s12|unix|flex]_yyyy-mm-dd_result.log 对于 flexmanager 的检查项目, Log为: site_id_flex _yyyy-mm-dd_result.log, 例如: site_id_flex _2009-02-23_result.log 对于 s12 的检查项目 Log为: site_id_s12 _yyyy-mm-dd_result.log 例如: site_id_s12 _2009-02-23_result.log 对于 unix 的检查项目 Log 为: site_id_unix _yyyy-mm-dd_result.log 例如: site_id_unix _2009-02-23_result.log Result log 是经过脚本处理过的对于检查项的判断log,不是原始的log,原始的log在下面的raw log 章节中介绍 All rights reserved. Passing on and copying of this Result log 的格式简析: document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 不同类型的检查项目的格式都类似,下面以s12 的一个case 为例: 版本 ED 文件编号 25/62 Document Number 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 上图的描述如下, SG_8 : HCT 检查项目的项目编号 CHECK S12 RUNCE: 是 SG_8 这个检查项目的描述信息 2009-02-26 16:42:13 : 是该HCT项目运行的unix时间,和oam的时间相同 SEND-SMS: 该字段是保留字段,为以后可能的短消息功能开发,如果对于该检查项目认为 nok 是很严重的事情,则将该字段设为SEND_SMS,否则则设为 NO_SMS(目前现场不用关 心此字段) FATAL: 这个是该检查项的告警级别,可以为 NoDefined, WARNING,FATAL NOK: 表明 SG-8 的检查结果为not ok,如果该检查项为好的 ,则该结果为ok 说明: Result log 可以由脚本 hctgrep 来过滤, 该脚本在 /usr/local/sbin/HCT 中 需要指定需要查看的log的 文件,HCT 项目, 该项目的检查结果 All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 26/62 Document Number 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 注意hctgrep 的参数顺序,不要搞错,另外文件名要给全路径,SG_XX 和 OK 都要大写 7.2. Raw log 对于 flex , s12 , oamce, 3个检查项目的原始log, 原始log 将在 /var/log/HCT/yyyy-mm-dd/raw 目录中存放,现场的工程师如果对于检查的result log 有疑问想查一下原始log 的话,可以到 该目录中去查看原始的log。 Log在备用的oam中产生后会及时同步到主用的oam的相同目录中,保证两个oam的数据一致性。 Such as, /var/log/HCT/2009-02-23/raw This fold means that the fold rawlog stores the raw log of flexmanager, s12 , oamce, 原始log 也是按照不同的检查项目,每天生成一个文件,在原始log里面有时间戳,很容易根据时间查到现场想要的log 在 /var/log/HCT/yyyy-mm-dd/raw目录中, 四种log 的例子如下, Site_id_flex _yyyy-mm-dd_raw.log, 例如 N19_flex_2009-02-23_raw.log All rights reserved. Passing on and copying of this Site_id_s12_yyyy-mm-dd_raw.log, 例如 N19_s12_2009-02-23_raw.log document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Site_id_unix_yyyy-mm-dd_raw.log, 例如 N19_unix_2009-03-24_raw.log Bell. 版本 ED 文件编号 27/62 Document Number 7.3. HCT 每日统计log 除了 result log 和raw log 之外,每天另外产生 daily 的统计log, 该统计log 将一天的四中 类型的检查项目的所有ok 和nok 的统计结果放在一起 如下面的3个log: N25_flex_2009-03-23_result.log N25_unix_2009-03-23_result.log N25_s12_2009-03-23_result.log 未经公司书面授权,任何人不得擅自 将产生新的文件: N25-2009-03-23-summary_DailyReport.log 传播、复制、交流与使用本文档的部分或全部内容。 命名为: Site_id_yyyy-mm-dd-summary_DailyReport.log 该文件产生的时间为 该日期的第二天根据上一天的result log生成 N25:OAMMGR-1-B:/var/log/HCT/2009-03-23>cat N25-2009-03-23- summary_DailyReport.log All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 28/62 Document Number 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 CHECK_TIMES: 该 HCT_ITEM 当天运行的总的次数 All rights reserved. Passing on and copying of this OK_TIMES : 该 HCT_ITEM 运行结果为 ok 的次数 document, use and communication of its contents not NOK_TIMES : 该 HCT_ITEM 运行 nok 的次数 permitted without authorization from Alcatel Shanghai Bell. 说明: 版本 ED 文件编号 29/62 Document Number 每日的统计log 在次日的凌晨0:10 分会自动生成,也就是说打个比方,5月6 日的凌晨0:10 时会生成 5 号的 daily 统计log 如果需要手工生成当天的log 便于维护人员查看可以用如下的命令: SG-JL:OAMMGR-1-A:/usr/local/sbin/HCT>./HCT_daily_generate.pl 2009-05-27 You have new mail in /var/spool/mail/root SG-JL:OAMMGR-1-A:/usr/local/sbin/HCT> 这时在 SG-J-A:/var/log/HCT/2009-05-27 目录中产生了当天的 L:OAMMGR-1 SG-JL_2009-05-27_summary_DailyReport.log 文件,该文件是从 当天的凌晨到现在的检查项的统计信息,该文件会被 2009-05-28 时产生的文件所替换 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 7.4. HCT 月度统计log Site_id_s12_2009-02- 25__result.log Site_id_2009-02-01- summary_DailyReport.l og Site_id_flex_2009-02- 25_result.log Site_id_2009-02-25- summary_DailyReport .l og Site_id_unix_2009-02- 25_result.log Site_id_2009-02-29- summary_DailyReport .l og All rights reserved. Passing on and copying of this document, use and communication of its contents not Site_id_2009-02-permitted without authorization from Alcatel Shanghai summary_MonthlyReport .log Bell. 版本 ED 文件编号 30/62 Document Number 如上图所示, 每个月的第一天,将根据上个月的每日统计log 生成月度统计log 月度统计log 命名: site_id-yyyy-mm-dd-summary_MonthlyReport.log 例如: N25-2009-03-summary_MonthlyReport.log OAMMGR-1-A: /var/log/HCT>cat N25-2009-03-summary_MonthlyReport.log 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 31/62 Document Number 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 Log 的字段结构和每日的统计log相同,不在说明 All rights reserved. Passing on and copying of this 在报告的尾部列出了每天缺少的文件, document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 32/62 Document Number 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 7.5. Log的同步 Hct有写文件操作的情况下,会调用cplog.pm,从本侧oam向另外一个oam拷贝文件,以保证两个oam的文件一致性。 每个小时, 执行s12.pl,unix.pl,flex.pl的时候会自动将生成的result log文件从本侧oam向另外一个oam拷贝。Raw log因其特殊性不会被同步。 每天凌晨0:10,自动执行生成日报,然后将日报从本侧oam向另外一个oam拷贝。 每个月1号,凌晨1:10,自动执行生成月报,然后将月报从本侧oam向另外一个oam拷贝。 7.6. 历史log的压缩和删除 压缩log的存储目录:/var/log/HCT/hctTar。 为了减少历史记录占用的oam的硬盘空间,每个月的1号,11号和21号在hct中调 用hctlog_handle.pl压缩和删除hct产生的历史log。 1. 定期压缩历史记录。 每个月的1号,11号和21号执行压缩的任务,压缩50天前产生的历史记录生 成一个*.tar.gz文件,同时删除这些历史记录。 举例如下: All rights reserved. Passing on and copying of this 3月1号压缩从1月1号到1月9号生成的log,生成文件Site-id_hct_Year- document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Month_[01].tar.gz,同时删除1月1号到1月9号之间生成的log。包含日报告Bell. 和result记录,raw记录。 3月11号压缩从1月10号到1月19号生成的log,生成文件Site-id_hct_Year- Month_[02].tar.gz,同时删除1月10号到1月19号之间生成的log。包含日报 告和result记录,raw记录。 版本 ED 文件编号 33/62 Document Number 3月21号压缩从1月20号到月末生成的log,生成文件Site-id_hct_Year- Month_[03].tar.gz,同时删除1月20号到月末之间生成的log。包含日报告和1 月的月报告,result记录,raw记录。 2. 定期删除压缩生成的*.tar.gz文件。 每个月的1号删除那些半年前生成的*.tar.gz文件。 举例如下: 2009-03-01删除2008年9月份的压缩文件。 3. 定期删除hct的error和debug的记录。 Error记录储存在/var/log/HCT/error目录下面。 Debug记录储存在/var/log/HCT/debug目录下面。 未经公司书面授权,任何人不得擅自 每个月的1号删除1个月之前产生的error记录和debug记录。 传播、复制、交流与使用本文档的部分或全部内容。 举例如下: 3月1号删除2月份产生的error和debug记录。 8. HCT 测试项 8.1. HCT 测试项的简单描述 <19:OPTION=ALL.检查s12 的告警信息,对于SG-1 SG S12侧告警检查 不关心的告警则忽略, <241:lkset=all,slc=all,detail=3. 检查link的 状态,对于acting 等状态不对的link列出,另SG 全局link数据SG-2 外对于现场不关心的link则进行忽略;有专门检查 的文件设置忽略的信息 <250:rtesid=all,detail=1. 检查routeset的SG 全局routesetSG-3 状态,对于状态不对的routeset列出,另外对数据检查 于现场不关心的routeset则进行忽略;有专 门的文件设置忽略的信息 oamce上每小时运行1次getasso, 所有主用All rights reserved. Passing on and copying of this document, use and communication of its contents not ass应该active(MGC上也应该这样做),状态permitted without authorization from Alcatel Shanghai SG 全局ASP以及显示为9,为正常,其他为异常或者不完全Bell. SG-4 偶联状态检查 正常。 (IPSTP) 用小程序Display ASP Service Status,所有 ASP应该active 版本 ED 文件编号 34/62 Document Number 检查S12所有模块参考PCB的结果 负荷OVMON 从检查结果上看,可用MBUF 应该在512K 以上 SG-5 从检查结果上看,可用UBUF 应该在3061K 以上 SELLIB 989T 检查局内所有S12SG-6 RUNCE: 模块状态 ALLCEPCB: ALL,DISRES,NA 检查S12模块是否 SG-7 2天内是否有restart 有Restart 基于第三方网关的log输出,查询7439每小 时报告,4:10收集前1天24小时的报告。未经公司书面授权,任何人不得擅自 SG-8 SG 系统报告分析 不设OK,NOK。文件名为:局名_日期传播、复制、交流与使用本文档的部分或全部内容。_7439_rep.log,存放路径和result log放一 起,保持双侧oam一致。 SG UNIX侧所有SG-9 st(OAM模块smv环境,ctrl+c退出查询) ITCE模块状态 MGC UNIX侧所有参考PCB数据,查看模块的CPU,memory模块CPU、内存的SG-10 资源占用情况是否超过规定门限 检查 SG UNIX侧所有登陆所有sln7s,使用dnt,所有模块之间状SG-11 SLN7S模块通信状态为INSERVICE 态检查 SG UNIX侧 查看最 SG-12 近24小时ITCE的alluptime(登陆到oam) 重启记录 分别登陆到oam1a和oam1b上,运行tail - n 500 /var/log/messages查看log。HCT会 判断messages中的内容,假如有不包含下 列“ntpdate”,“promiscuous mode”,SG UNIX侧 监测系SG-13 “check pass user known”的内容,工具会统错误报告 给出Nok,可能需要进一步检查详细的内 容。 双侧 OAM 硬盘空参考PCB里的输出,由Health Check ToolSG-14 间检查 搜集并报告出来 All rights reserved. Passing on and copying of this document, use and communication of its contents not 在ACTIVE OAM侧使用 checkIDM 检查permitted without authorization from Alcatel Shanghai Bell. OAM与ITCE同步的情况. OAM与ITCE数据SG-15 如果表名对应: equivalent 表示同步正常 同步检查 如果表名对应: not-equivalent 表示同步异 常. 版本 ED 文件编号 35/62 Document Number 在ACTIVE OAM侧, 使用 cd /opt/ORAdbs/dbtools/bin ; ./cmp_user_tables.sh cls_coco_user ; OAM之间的数据同 如果表名对应: EQUALIZED 表示OAM 两侧SG-16 步检查 ORACLE数据同步正常 如果表名对应: NOT EQUALIZED 表示OAM 两侧ORACLE数据同步异常. <19. 检查是否有ETSL、ES1S的SBL告警; 以及是否有 HARDESWT、TRANESWT的未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。DIRECT告警; (如果有ETSL、ES1S、HARDESWT的告警,SG 检查ELM的相SG-17 表明存在网络故障;如果只有TRANESWT的关告警 告警,表明以前曾经出现过HARDESWT的告 警,目前已经解除) SG-1包含在里面 在UNIX CE中检查ELM的状态: route 检 查是否有172.16.xxx.xxx和172.17.xxx.xxxSG 在UNIX CE中SG-18 之间的路由 检查ELM的状态 (如果有172.16.xxx.xxx和172.17.xxx.xxx 之间的路由,则表明系统存在网络故障) 检查oam是否向1,使用ntpq -np启动的网络计时协议 NTP服务器时间同(NTP)查询程序,报告状态不正常的ntp 步 server,若是当前同步为local,同时报告错 误 2,offset大于0.5秒,对这个ntp server报SG-19 warning alarm ; offset 大于5秒,对这个 ntp server报告fatal alarm All rights reserved. Passing on and copying of this 检查oamce的 se 在oam两侧,分别使用命令seci d s m来查 document, use and communication of its contents not SG-20 msgbuf的情况 看 permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 36/62 Document Number 第三方网管接口状主用OAM:/var/log/report/report.log确态检查 认在保持更新, /var/log/report/MeasReport中的统计文件SG-21 确认保持更新 检查R_ORD_CTRL 查看R_ORD_CTRL(只有一个TUPLE),比较 TDC模块和各RCDS模块上该RELATION是SG-22 否一致 比对双侧OAM的/opt/ALAsm/ConfigMaint/etc/EMGC.RSQ, RSQ相关文件/opt/ALAsm/ConfigMaint/etc/ECEL.RSQ, checksum /opt/ALAsm/ConfigMaint/etc/ECEL.conf, /opt/ALAsm/ConfigMaint/bin/CAEposition SG-23 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 Flexmanager硬件hainfo on floating ip SG-24 状态 Flexmanager告警faults on floating ip SG-25 检查 FlexMgr 497天相 SG-26 关检查 FlexMgr各个shelfping flexMgr 固定IP SG-27 物理ip是否可达 M3UA/M2UA 在SeTrace目录下,用cat SeTracex | Alarm 检查 trace_filt | grep sln7sce-x | grep -i alarm,看看是否有Alarm的历史;如果有SG-28 大量偶联翻转的ALARM,请上报 检查MGC OAM和oam侧使用date,S12侧使用TIM,检查结S12侧的时间 果oam时间和S12时间应该一致并尽可能和SG-29 北京时间接近 S12版本一致性检IDS:A和GLS:A 查(检查GLS的差SG-30 异性) UNIX版本一致性双侧OAM ramdisk link比对,standby OAMSG-31 检查 和getver比对 All rights reserved. Passing on and copying of this CPU IO wait的检所有ITCE均包含CPU IO WAIT,参考PCB的document, use and communication of its contents not SG-32 permitted without authorization from Alcatel Shanghai 查 设定门限 Bell. Disk IO流量检查 包含EABS和OAM,参考PCB的设定门限 SG-33 各类unix ITCE的参考PCB SG-34 网络端口流量检查 版本 ED 文件编号 37/62 Document Number SLN7S上N7 over 参考PCB SG-35 IP的流量检查 8.2. HCT 测试项的详细描述 8.2.1 SG_1 CALL EGNINE 的告警检查 项目描述: 针对 call engine 的部分,用 <19:OPTION=ALL. 的命令显示结果,检查是否有S12 的告未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。警 项目条件: 该项目可以在 /usr/local/sbin/HCT/config/s12-alarm_careless.cfg 文件中设定自己需要 过滤的告警,即在 s12-alarm_careless.cfg 文件中列出的告警信息将在result log 的下部显示, 该 s12-alarm_careless.cfg 文件如何使用,请看下面: All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 38/62 Document Number 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 请使用上面的hctcfg的脚本来配置告警过滤文件,显示,添加和删除告警信息,可以是 全部的告警信息,或者是部分告警信息。需要注意的是,添加的告警信息中间含有空 格,则空格数必须和19报告中显示一致,所以最好是直接粘帖过来,不然无法过滤。 上面的图中的 “DISKFAIL 000C 18” 这条告警如果想过滤掉,认为不是现场关心的内容 的话,可以将该内容放入 s12-alarm_careless.cfg 文件中,这样在SG_1 的result log 里面就 会显示 DISKFAIL 000C 18 为过滤的告警信息。 如果 S12 的告警信息都过滤掉了,result log 呈现如下,则表示 SG_1 的结果也是ok的 项目结果判断: 如果 19 命令显示没有找到告警,则SG_1为 ok, 否则为 nok All rights reserved. Passing on and copying of this Result log 例子: document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 39/62 Document Number 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 这里的黄色信息为过滤掉的内容 8.2.2 SG_2 检查call engine 的link 状态 项目描述: 检查S12 link 的状态情况 项目条件: 无 项目结果判断: 有ACTING 的link 则显示出来并且SG_2 设置为nok,有orj-dis的link显示但是不 All rights reserved. Passing on and copying of this 算SG_2 为nok document, use and communication of its contents not Result log 例子: permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 40/62 Document Number 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 说明: SG_2 也可以过滤掉不需要关心的link,方法同 SG_1 8.2.3 SG_3 检查call engine 的routeset 状态 项目描述: 检查 S12 roueset 的状态 项目条件: 无 All rights reserved. Passing on and copying of this 项目结果判断: document, use and communication of its contents not 有UAV 的routeset 则显示出来并且SG_3 设置为nok, permitted without authorization from Alcatel Shanghai Bell. Result log 例子: 版本 ED 文件编号 41/62 Document Number 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 说明: 上图中有 Route abnormal 的字段,表明了routeset 是ok 的,但是routeset里面有状态 不正常的route, 例子中routeset A8611 是正常的,但其 N20TOS23 的route 有异常 例子中的 328 表明的是routeset 不正常的数量,不包括routeset下面的route 8.2.4 SG_7 检查call engine的模块restart 项目描述: 检查 call engine 模块在 2 天内是否有自动restart 项目条件: 无 项目结果判断: 如果在2天之内, call engine 的模块有除了 190T 的restart 的其他restart,则SG_7 为 nok,否则为 ok All rights reserved. Passing on and copying of this Result log 例子: document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 42/62 Document Number 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 8.2.5 SG_17 检查call engine是否有ELM告警 项目描述: 检查S12 的告警中是否有ELM 的告警 项目条件: 无 项目结果判断: 如果在19 命令中有 ETSL , ES1S, HARDESWT, TRANESWT 的ELM 告警,则 SG_17 报 nok,否则为 ok Result log 例子: All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 43/62 Document Number 8.2.6 SG_6 检查call engine模块状态 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 项目描述: 检查call engine 模块的状态,运行macro runce 项目条件: 无 项目结果判断: 有call engine 的模块有不活的则报nok,否则为ok Result log 例子: All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 44/62 Document Number 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 8.2.7 SG_5 检查call engine 的模块负荷 (PCB log related) 项目描述: 检查PCB log 中call engine 的模块在上一个小时中是否有模块负载过高,检查log中 WARNING 和 OVERLOAD 的关键字 项目条件: 无 项目结果判断: 如果检查的pcb log中没有WARNING 和 OVERLOAD 的log 则SG_5 报ok,否则报 nok, alarm level 为 WARNING Result log 例子: All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 45/62 Document Number 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 8.2.8 SG_29 检查call engine和call protocol的时间一致性 项目描述: 检查call engine 和call protocal 上的时间是否一致 项目条件: 无 项目结果判断: 如果时间一致,则SG_29 为ok ,否则为nok Result log 例子: All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 8.2.9 SG_28 检查m3ua,m2ua的告警信息 项目描述: 通过搜索前一天产生的所有setrace来查找m3ua,m2ua的告警信息。 版本 ED 文件编号 46/62 Document Number 查找的关键字sln7s和alarm(不分大小写)。 项目条件: 项目结果判断: 搜索到的所有信息存储到原始的log中,查找出错的sln7s和时间戳,格式如下: Slnsce-1:MAR-11-17(时间戳精确到小时) 如果有告警消息报告:Nok。 Result log 例子: 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai 8.2.10 SG_9 检查所有unix模块的状态 Bell. 项目描述: 通过st命令列出状态为oos的unix模块 版本 ED 文件编号 47/62 Document Number 项目条件: 项目结果判断: 如果没有状态为oos的模块,报告:ok。 如果有状态为oos的模块,列出状态异常的模块,报告:Nok。 Result log 例子: 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 8.2.11 SG_9 检查所有的unix模块是否有24小时之内的重启 项目描述: 检查在24小时以内,有没有模块重启,若是有模块重启,列出重启的类型,是 人工重启:MT_MANUAL,还是自动重启:MT_AUTO。 项目条件: 项目结果判断: 如果有模块在24小时之内重启,在模块状态的下边列出模块重启的类型,在报 告的结尾处列出oos的模块和重启的模块,报告:Nok, 如果没有模块在24小时之内重启,报告:ok。 Result log 例子: All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 48/62 Document Number 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 8.2.12 SG_13 检查双侧oam的文件“/var/log/messages” 项目描述: 分别登陆到oam1a和oam1b上,运行tail -n 500 /var/log/messages查看log,检查是否有任何不属于下列的消息: “promiscuous mode” “ntpdate” “check pass user unknown” 需要指出的是,虽然列出NOK,未必就是对业务影响有问题,因为有很多只是系统的log,出现并不代表会影响到系统运行,需要进一步具体的分析。 项目条件: 项目结果判断: 假如任何一个oam有不属于上述的信息,列出该oam,报告:Nok。 All rights reserved. Passing on and copying of this 假如没有,则报告:ok。 document, use and communication of its contents not Result log 例子: permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 49/62 Document Number 8.2.13 SG_10 搜索PCB记录,检查所有unix模块cpu和内存状态 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。项目描述: 在上一小时的PCB 记录 中,搜索所有unix模块的cpu和内存的使用情况,检查 记录中WARNING 和 FATAL的关键字 项目条件: 无 项目结果判断: 如果检查的pcb 记录中没有WARNING 和 FATAL,报告:ok。 如果检查的pcb记录中只有WARNING的告警,报告:Nok,告警级别 WARNING。 如果检查的pcb记录中有FATAL的告警,也可能有WARNING的告警,报告: Nok,告警级别FATAL。 如果PCBlog不存在,报告:Nok。 Result log 例子: All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 50/62 Document Number 8.2.14 SG_14 搜索PCB记录,检查双侧oam的disk使用情况 项目描述: 在上一小时的PCB 记录 中,搜索双侧oam的disk使用情况,检查记录中 WARNING 和 FATAL的关键字 项目条件: 无 项目结果判断: 如果检查的pcb 记录中没有WARNING 和 FATAL,报告:ok。 如果检查的pcb记录中只有WARNING的告警,报告:Nok,告警级别WARNING。 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 如果检查的pcb记录中有FATAL的告警,也可能有WARNING的告警,报告:Nok,告警级别FATAL。 如果PCBlog不存在,报告:Nok。 Result log 例子: 8.2.15 SG_15 检查主用侧oam到itce的数据同步 项目描述: 通过rsh到主用侧oam执行命令:checkIDM。若是有不同步的现象,列出模块的名称,不同步table的名字,以及oam和该模块的个数。 项目条件: All rights reserved. Passing on and copying of this document, use and communication of its contents not 无 permitted without authorization from Alcatel Shanghai Bell. 项目结果判断: 若有不同步的table,列出列出模块的名称,不同步table的名字,以及oam和该模块的个数,报告:Nok。 否则,报告:ok。 版本 ED 文件编号 51/62 Document Number Result log 例子: 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。8.2.16 SG_16 检查备用oam到主用oam的oracle数据同步 项目描述: 使用命令“cmp_all_tables.sh”来比较双侧OAM是否同步,若有不同步的现象,显示 NOK。我们只关心下面几个用户的table的比较,别的即使不同步也可以忽略掉。在 cls_coco_user的table中,不关心errors的情况。脚本中已经进行了过滤。需要关心的用户如 下: CLS_COCO_USER; CLS_SNMP_USER COM_SEC_USER 项目条件: 双侧oam都处于in server的状态。 项目结果判断: 如果有table不同步,列出user name和table name,报告:Nok。 否则,报告:ok。 Result log 例子: All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 52/62 Document Number 8.2.17 SG_18 在所有的unix itce中检查和elm相关的路由情况 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。项目描述: 在所有UNIX CE中调用命令route,检查ELM的状态。检查是否有172.16.xxx.xxx和172.17.xxx.xxx之间的路由或者172.17.xxx.xxx和172.16.xxx.xxx之间的路由。如果有上述的错误路由,同时列出错误模块和错误路由。 项目条件: 需要预先确认MGC已经打开ELM,同时已经打开呼叫域的自动维护。 项目结果判断: 如果发现下面的路由,报告:Nok。 否则,报告:ok。 172.17.64.78 172.16.64.78 255.255.255.255 UGH 0 0 0 eth0 172.17.80.78 172.16.80.78 255.255.255.255 UGH 0 0 0 eth0 Result log 例子: All rights reserved. Passing on and copying of this document, use and communication of its contents not 8.2.18 SG_19 在双侧oam中检查ntp server的状态 permitted without authorization from Alcatel Shanghai Bell. 项目描述: 分别在双侧oam中调用命令ntpq –np来检查ntp server的状态。 项目条件: 版本 ED 文件编号 53/62 Document Number 需要确认双侧oam已经配置了ntp server 。 项目结果判断: 1. ntp server的refid为FREE或者0.0.0.0,报告该server Nok。 2. ntp server的状态不为“*”和“+”,或者为空,报告该server Nok。 3. oam从LOCAL同步时间,报告该oam Nok。 有上面的任何一种情况,列出ntp server的 offset,报告:Nok。 否则,报告:ok. Result log 例子: 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 8.2.19 SG_24 逐个检查flexmgr的运行状态 项目描述: 逐个登录flexmgr的固定地址,使用命令“hainfo”,检查flexmgr的运行状态。 flexmgr1> hainfo /system/svc/flexha/flexHa/myRole : standby /system/svc/flexha/flexHa/replicationState : replicating All rights reserved. Passing on and copying of this /system/svc/flexha/flexHa/isBlessed : 1 document, use and communication of its contents not /system/svc/flexha/flexHa/flexMgr1Status : up permitted without authorization from Alcatel Shanghai /system/svc/flexha/flexHa/flexMgr2Status : up Bell. /system/svc/flexha/flexHa/linkInterfaces/link1IpInterfaces : eth0:0-eth0:0 /system/svc/flexha/flexHa/flexMgr1/net1IpAddress : 172.16.101.1 /system/svc/flexha/flexHa/flexMgr2/net1IpAddress : 172.16.101.2 /system/svc/flexha/flexHa/floatingIp/floatingIp1/address : 172.16.101.101 版本 ED 文件编号 54/62 Document Number /system/svc/flexha/flexHa/linkInterfaces/link2IpInterfaces : eth1:0-eth1:0 /system/svc/flexha/flexHa/flexMgr1/net2IpAddress : 172.17.101.1 /system/svc/flexha/flexHa/flexMgr2/net2IpAddress : 172.17.101.2 /system/svc/flexha/flexHa/floatingIp/floatingIp2/address : 172.17.101.101 /system/svc/flexha/flexHa/floatingIp/floatingIp3/address : 10.1.40.101 /system/svc/flexha/flexHa/floatingIp/floatingIp4/address : 172.23.56.253 项目条件: 无 项目结果判断: 判断两个值:flexmgr自身和mate的状态都为up,双侧flexmgr的状态为 “replicating”,报告:ok。 否则,报告:Nok。 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 Result log 例子: 8.2.20 SG_25 逐个检查flexmgr的告警状态 项目描述: 逐个登录flexmgr的固定地址,使用命令“faults”,检查flexmgr是否有active的告 警。 项目条件: 无 项目结果判断: 如果有flexmgr有active的告警,列出flexmgr和active的告警,报告:Nok。 否则,报告:ok。 All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Result log 例子: Bell. 版本 ED 文件编号 55/62 Document Number 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 8.2.21 SG_26 逐个检查flexmgr 运行时间 项目描述: 逐个登录flexmgr,进入shell环境,使用命令“cat /proc/uptime”得到,flexmgr的运 报告一个warning 告警,如果运行时间达到490行时间。如果运行时间达到470天, 天,报告一个fatal告警。 项目条件: 无 项目结果判断: 比较运行时间,如果达到470天,报告:Nok,level为warning。 比较运行时间,如果达到490天,报告:Nok,level为fatal。 比较运行时间,如果小于470天,报告:ok。 Result log 例子: All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 56/62 Document Number 8.2.22 SG_27 逐个检查flexmgr固定地址是否可达 项目描述: 逐个ping flexmgr的固定地址,如果地址不可达,列出不可达的地址,告警。 项目条件: 无 项目结果判断: 如果某个flexmgr的地址不可到,列出该地址,报告:Nok。 否则,报告:ok。 未经公司书面授权,任何人不得擅自 Result log 例子: 传播、复制、交流与使用本文档的部分或全部内容。 8.2.23 SG_30 检查呼叫域版本一致性 项目描述: 第一步,使用命令GLS:ALL,,1和GLS:ALL,,2比较双侧plda内的版本信息。 第二步,调用命令”IDS:ALL”,得到各个模块的版本信息,和上面得到的plda内的 版本相比较。 项目条件: 无 项目结果判断: 若一侧PLDA退出服务,停止版本比较,报告:Nok。 若是双侧plda内的版本信息不一致,报告:Nok。 若是其他模块和plds内部的版本不一致,报告:Nok。 All rights reserved. Passing on and copying of this document, use and communication of its contents not 否则,报告:ok。 permitted without authorization from Alcatel Shanghai Bell. Result log 例子: 版本 ED 文件编号 57/62 Document Number 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。8.2.24 SG_31 检查协议域版本一致性 项目描述: 检查双侧oam之间的版本是否一致,分别执行命令“dcv”。 检查双侧oam内的ramdisk链接是否一致,到ramdisk目录下,检查链接文件。 逐个登录itce,检查版本,和双侧oam内ramdisk链接比较。 项目条件: 无 项目结果判断: 若一侧oam退出服务,停止比较,报告:Nok。 若上面提到的3种情况有一种情况不一致,列出错误情况,报告:Nok。 否则,报告:ok。 Result log 例子: All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 58/62 Document Number 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 8.2.25 SG_32 搜索PCB记录,检查所有ITCE的cpu I/O wait数据 项目描述: 在上一小时的PCB 记录 中,搜索ITCE的cpu I/O wait数据情况,关键字: CPU_iowait,检查记录中WARNING 和 FATAL的关键字。 项目条件: 无 项目结果判断: 如果检查的pcb 记录中没有WARNING 和 FATAL,报告:ok。 All rights reserved. Passing on and copying of this 如果检查的pcb记录中只有WARNING的告警,报告:Nok,告警级别 document, use and communication of its contents not WARNING。 permitted without authorization from Alcatel Shanghai Bell. 如果检查的pcb记录中有FATAL的告警,也可能有WARNING的告警,报告: Nok,告警级别FATAL。 如果PCBlog不存在,报告:Nok。 版本 ED 文件编号 59/62 Document Number Result log 例子: 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 8.2.26 SG_34 搜索PCB记录,检查所有协议域模块的网口流量数据 项目描述: 在上一小时的PCB 记录 中,搜索所有unix模块网口流量情况,关键字:eth,检查 记录中WARNING 和 FATAL的关键字 项目条件: 无 项目结果判断: 如果检查的pcb 记录中没有WARNING 和 FATAL,报告:ok。 如果检查的pcb记录中只有WARNING的告警,报告:Nok,告警级别 WARNING。 如果检查的pcb记录中有FATAL的告警,也可能有WARNING的告警,报告: Nok,告警级别FATAL。 如果PCBlog不存在,报告:Nok。 Result log 例子: All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 60/62 Document Number 未经公司书面授权,任何人不得擅自 传播、复制、交流与使用本文档的部分或全部内容。 8.2.27 SG_23 检查双侧oam的重要文件的cksum值是否一致 项目描述: 在hct配置文件“hct.cfg”中定义了双侧oam中需要比较cksum值的重要文件,初 始定义如下: oamce important file ECEL.RSQ /opt/ALAsm/ConfigMaint/etc/ECEL.RSQ oamce important file EMGC.RSQ /opt/ALAsm/ConfigMaint/etc/EMGC.RSQ oamce important file CAEposition /opt/ALAsm/ConfigMaint/bin/CAEposition oamce important file ECEL.conf /opt/ALAsm/ConfigMaint/etc/ECEL.conf 以后若需增加检查文件,编辑配置文件添加即可。 项目条件: 无 项目结果判断: 若有文件在双侧oam中的cksum值不一致,列出该文件,报告:Nok。 否则,报告:ok。 Result log 例子: All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 61/62 Document Number 未经公司书面授权,任何人不得擅自 <文档结束> 传播、复制、交流与使用本文档的部分或全部内容。 All rights reserved. Passing on and copying of this document, use and communication of its contents not permitted without authorization from Alcatel Shanghai Bell. 版本 ED 文件编号 62/62 Document Number
/
本文档为【SG-HCT说明】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索