服务热线:4006-981-828
解决方案
方案中心
维保知识库
售前方案
下载中心
常用补丁
安装镜像
AIX巡检指导手册

 

第1章 机房环境检查

机房环境需要检查的内容如下:
A. 机房是否干净,是否有许多灰尘。
B. 机房是否配置气体灭火器。
C. 机房如果有地板,地板通气孔位置是否到位。
D. 机房是否有易燃气体。
E. 机房是否漏水。
F. 机房电压是否稳定,建议电压值保持在220V±5%。
G. 机房零地电压是否小于1伏
H. 机房机房温度是否正常,建议机房的温度保持在24±2℃。
I. 机房机房湿度是否正常,建议机房的湿度保持在8%-80%。
J. 是否有远程自动报警装置。

第2章 状态指示灯检查

检查硬件部件状态指示灯时,首先需要检查主机面板的告警指示灯是否亮黄色,如果是亮黄色,则需要检查一下其它硬件部件(例如:电源、风扇、网卡、光纤通道卡、内置硬盘、内置磁带机等)的状态指示灯是否亮黄色。当硬件部件指示灯亮黄色时,需要引起注意,硬件部件可能坏掉或有故障需要处理。在检查风扇时,请注意仔细听风扇的声音是否有异常,如果风扇的声音过大,则有可能是其它冗余风扇已经坏掉而造成风扇转速加快造成。

第3章 配置检查

运行下列命令进行主机配置检查:
# prtconf
 
 
运行下列命令进行主机资产检查:
# lscfg –vp
 

第4章 系统配置检查

4.1 处理器

运行命令:lsconf,检查CPU类型、位数、主频和数量,例如:
# lsconf
System Model: IBM,9113-550                       <---  机器型号
Machine Serial Number: 65FD8FE                   <---  机器序列号
Processor Type: PowerPC_POWER5                   <---  CPU类型
Number Of Processors: 2                          <---  CPU数量
Processor Clock Speed: 1504 MHz                  <---  CPU主频
CPU Type: 64-bit                                 <---  CPU位数
Kernel Type: 64-bit                              <---  内核类型
LPAR Info: 1 65-FD8FE                            <---  LPAR信息
Memory Size: 3808 MB                             <---  内存大小
Good Memory Size: 3808 MB                        <---  可用的内存大小
Platform Firmware level: Not Available
Firmware Version: IBM,SF230_126                  <---  机器微码版本
Console Login: enable
 

4.2 内存

运行命令:lsconf –m,检查内存大小,例如:
# lsconf –m
Memory Size: 3808 MB
 
内存大小为3808MB

4.3 内置硬盘

运行命令:lsdev –Cc disk和lscfg –vl hdiskX,检查内置硬盘的数量和容量,例如:
# lsconf –Cc disk
hdisk0 Available 10-88-00-8,0  16 Bit LVD SCSI Disk Drive
hdisk1 Available 10-88-00-10,0 16 Bit LVD SCSI Disk Drive
hdisk2 Available 10-88-00-9,0  16 Bit LVD SCSI Disk Drive
 
内置硬盘有3个
 
# lscfg –vl hdisk0
hdisk0           P2/Z1-A8  16 Bit LVD SCSI Disk Drive (73400 MB)
 
内置硬盘的容量为73.4GB

4.4 内置磁带机

运行命令:lscfg –vl rmt0,检查内置磁带机的容量,例如:
# lscfg –vl rmt0
rmt0  U787B.001.DNW42A7-P1-T14-L0-L0   LVD SCSI 4mm Tape Drive (36000 MB)
 
磁带机的非压缩容量是3600MB

4.5 内核类型

运行命令:lsconf –k,检查内核类型,例如:
# lsconf –k
Kernel Type: 64-bitk
 
系统内核是64位

4.6 微码版本

运行命令:lsmcode –c,检查机器的微码版本,例如:
Power3以前机器:
# lsmcode -c
System Firmware level is SST99229
Service Processor level is ss990816
 
机器微码版本是SST99229
 
Power3、Power4机器:
# lsmcode -c
Platform Firmware level is 3H080425      
System Firmware level is RG080425_d79e22_regatta
SPCN Firmware level is 0000RHE11193
机器微码版本是3H080425
Power5、Power6机器:
The current permanent system firmware image is SF225_096
The current temporary system firmware image is SF225_096
The system is currently booted from the temporary firmware image.
机器微码版本是SF225_096。备注:一般是检查temporary system firmware版本。
 

4.7 系统版本及补丁

运行命令:oslevel,检查系统版本和补丁,例如:
# oslevel -r
5300-07
操作系统版本是5.3
# oslevel -s
5300-07-01-0748
操作系统版本是5.3,TL是07,SP是01,Fix Level是0748。

4.8 系统时区

运行命令:echo $TZ,检查系统时区,例如:
# echo $TZ
BEIST-8
 
正确的系统时区设置为BEIST-8。
 
备注:如果启用了夏时制,输出值为BEIST-8BEIDT,则需要运行命令:chtz BEIST-8,改变时区,然后重启系统,再调整日期和时间。

4.9 AIO(异步I/O)

运行命令:lsdev –Cc aio,检查是否启用AIO,例如:
# lsdev -Cc aio
aio0 Available  Asynchronous I/O (Legacy)
 
aio0 Available表示启用了AIO,如果是Defined,表示未启用AIO,则需要运行下列命令启用AIO:
# chdev -l aio0 -P -a autoconfig='available'
 
或者
 
# smitty chaio
 
然后重启系统。

4.10 最大进程数

运行命令:lsattr –El sys0 –a maxuproc,检查系统每用户的最大进程数,例如:
# lsattr –El sys0 –a maxuproc
maxuproc 512 Maximum number of PROCESSES allowed per user  True
 
系统每用户的最大进程数为512,如果需要增加最大进程数到1024,则运行命令:
# chdev –El sys0 –a maxuproc=1024

4.11 SMT(并发多线程)

只有Power5或以后的机器,才支持SMT功能。运行命令:smtctl,检查系统是否启用SMT功能,例如:
# smtctl
 
This system is SMT capable.
SMT is currently enabled.
 
SMT boot mode is not set.
SMT threads are bound to the same physical processor.
 
proc0 has 2 SMT threads.
Bind processor 0 is bound with proc0
Bind processor 1 is bound with proc0
 
proc2 has 2 SMT threads.
Bind processor 2 is bound with proc2
Bind processor 3 is bound with proc2
 
proc4 has 2 SMT threads.
Bind processor 4 is bound with proc4
Bind processor 5 is bound with proc4
 
proc6 has 2 SMT threads.
Bind processor 6 is bound with proc6
Bind processor 7 is bound with proc6
 
SMT is currently enabled表示启用了SMT功能,SMT is currently disabled表示未启用SMT功能,如果需要启用SMT功能,则运行下列命令:
# smtctl –m on

4.12 换页空间

运行命令:lsps –a,检查系统换页空间大小,例如:
# lsps -a
Page Space  Physical Volume   Volume Group  Size   %Used  Active  Auto  Type
hd6         hdisk0            rootvg        2048MB   1    yes     yes    lv
paging00    hdisk1            rootvg        2048MB   1    yes     yes    lv
 
系统创建了2个换页空间,大小分别都为2048MB,则系统换页空间总的大小为4096MB。
当物理内存小于等于4G时,系统换页空间大小一般为物理内存的1-2倍;物理内存大于4G时,系统换页空间大小一般设置为内存大小,再观察系统,检查换页空间的使用情况,根据需要再增加系统换页空间大小。
 
例如,当需要增加hd6换页空间大小,则运行命令:
# chps –s LPS hd6
备注:LPS是需要增加的换页空间LP数量。

4.13 dump设置

运行命令:sysdumpdev –l检查系统dump设置,例如:
# sysdumpdev -l
primary              /dev/lg_dumplv
secondary            /dev/sysdumpnull
copy directory       /var/adm/ras
forced copy flag     TRUE
always allow dump    TRUE
dump compression     ON
 
系统dump的正确设置如上输出。如果不是请运行下列命令修改:
# sysdumpdev -P -p /dev/lg_dumplv -K –C
 
评估当前系统dump需要的空间大小:
# sysdumpdev –e
 
显示关于以前发生DUMP的统计信息:
# sysdumdev -L
 
检测是否有新的DUMP出现:
# sysdumpdev -z

4.14 errdemon进程

运行命令:ps -ef |grep errdemon,检查系统errdemon守护进程是否在运行,例如:
# ps -ef |grep errdemon
root  155748       1   0   Jul 14      -  0:00 /usr/lib/errdemon
 
上面输出信息表示errdemon守护进程在运行。
 
错误日志守护进程从/dev/error文件里读入错误记录并在系统错误日志里创建错误日志记录。除了在每次记录错误时向系统错误日志里写一条记录外,错误日志守护进程还执行像在错误通知数据库里指定的错误通知。/etc/objrepos/errnotify 文件就是错误通知数据库。默认的系统错误日志由 /var/adm/ras/errlog 文件维护。最近的错误记录放在非易失性随机存取存储器里(NVRAM)。在系统启动期间,当错误日志守护进程启动后,这条最近的错误记录就从 NVRAM 里读入并添加到错误日志。
 
显示系统错误日志,运行命令:errpt
清除系统错误日志,运行命令:errclear

4.15 srcmstr进程

运行命令:ps –ef | grep srcmstr,检查srcmstr守护进程是否在运行,例如:
# ps -ef |grep srcmstr
root  159858       1   0   Jul 14      -  0:00 /usr/sbin/srcmstr
 
上面输出信息表示srcmstr守护进程在运行。
 
srcmstr守护进程是系统资源控制器(SRC),srcmstr守护进程生成并控制子系统、处理子系统短状态请求、向子系统传递请求并处理出错通知。通常 srcmstr 守护进程通过使用 inittab 文件条目启动。
 
列出所有子系统的状态,请运行命令:
# lssrc  -a
 
列出tcpip组中子系统的所有实例的状态,请运行命令:
# lssrc  -g tcpip

4.16 系统运行的应用

系统运行的应用请询问系统管理员,并做记录。
 

第5章 卷组、文件系统检查

5.1 VG状态

运行命令:lsvg vgname,检查VG状态,例如:
# lsvg rootvg
VOLUME GROUP:       rootvg                   VG IDENTIFIER:  00cfd8fe00004c000000011b1d4ee4ef
VG STATE:           active                   PP SIZE:        128 megabyte(s)
VG PERMISSION:      read/write               TOTAL PPs:      1092 (139776 megabytes)
MAX LVs:            256                      FREE PPs:       72 (9216 megabytes)
LVs:                16                       USED PPs:       1020 (130560 megabytes)
OPEN LVs:           15                       QUORUM:         1
TOTAL PVs:          2                        VG DESCRIPTORS: 3
STALE PVs:          0                        STALE PPs:      0
ACTIVE PVs:         2                        AUTO ON:        yes
MAX PPs per VG:     32512                                    
MAX PPs per PV:     1016                     MAX PVs:        32
LTG size (Dynamic): 256 kilobyte(s)          AUTO SYNC:      no
HOT SPARE:          no                       BB POLICY:      relocatable

5.2 rootvg镜像

运行命令:lsvg –l vgname,检查卷组是否镜像,例如:
# lsvg –l rootvg
rootvg:
LV NAME             TYPE       LPs   PPs   PVs  LV STATE      MOUNT POINT
hd5                 boot       1     2     2    closed/syncd  N/A
hd6                 paging     128   256   2    open/syncd    N/A
hd8                 jfslog     1     2     2    open/syncd    N/A
hd4                 jfs        16    32    2    open/syncd    /
hd2                 jfs        32    64    2    open/syncd    /usr
hd9var              jfs        16    32    2    open/syncd    /var
hd3                 jfs        16    32    2    open/syncd    /tmp
hd10opt             jfs        1     2     2    open/syncd    /opt
lg_dumplv           sysdump    24    24    1    open/syncd    N/A
lv00                jfs        16    32    2    open/syncd    /ptf
informixlv          jfs2       16    32    2    open/syncd    /usr/informix
loglv00             jfs2log    1     2     2    open/syncd    N/A
fslv00              jfs2       8     16    2    closed/syncd  /tmpbak
templv              raw        8     16    2    closed/syncd  N/A
paging00            paging     128   256   2    open/syncd    N/A
 
PPs是LPs的两倍,且PVs为2,表示LV做了镜像。LV STATE为syncd表示镜像是同步的,如果为STALE,则需要同步镜像,请运行命令:
# syncvg –v rootvg
 
如果rootvg没有做镜像,需要手动做镜像,其步骤如下:
# extendvg rootvg hdisk1
# mirrorvg -S rootvg hdisk1
# chvg -Qn rootvg
# bosboot -ad /dev/hdisk0
# bootlist -m normal hdisk0 hdisk1
 
备注:dump逻辑卷lg_dumplv不需要做镜像。VG成功做完镜像后,如果在VG里创建了一个新的LV,则需要单独对LV进行镜像。例如:
# mklv -y'testlv' -t'jfs2' rootvg 5 hdisk0
# mklvcopy testlv 2 hdisk1
# syncvg -v rootvg
 
单个LV镜像前信息如下:
# lsvg -l rootvg
rootvg:
LV NAME             TYPE       LPs   PPs   PVs  LV STATE      MOUNT POINT
hd5                 boot       1     2     2    closed/syncd  N/A
hd6                 paging     19    38    2    open/syncd    N/A
hd8                 jfs2log    1     2     2    open/syncd    N/A
hd4                 jfs2       4     8     2    open/syncd    /
hd2                 jfs2       32    64    2    open/syncd    /usr
hd9var              jfs2       32    64    2    open/syncd    /var
hd3                 jfs2       16    32    2    open/syncd    /tmp
hd1                 jfs2       32    64    2    open/syncd    /home
hd10opt             jfs2       32    64    2    open/syncd    /opt
fwdump              jfs2       3     6     2    open/syncd    /var/adm/ras/platform
paging00            paging     17    34    2    open/syncd    N/A
fslv00              jfs2       160   320   2    open/syncd    /oracle
loglv00             jfslog     1     2     2    open/syncd    N/A
lv00                jfs        80    160   2    open/syncd    /arch1
lv01                jfs        80    160   2    open/syncd    /arch2
testlv              jfs2       5     5     1    closed/syncd  N/A
 
单个LV成功镜像后的信息如下:
# lsvg -l rootvg
rootvg:
LV NAME             TYPE       LPs   PPs   PVs  LV STATE      MOUNT POINT
hd5                 boot       1     2     2    closed/syncd  N/A
hd6                 paging     19    38    2    open/syncd    N/A
hd8                 jfs2log    1     2     2    open/syncd    N/A
hd4                 jfs2       4     8     2    open/syncd    /
hd2                 jfs2       32    64    2    open/syncd    /usr
hd9var              jfs2       32    64    2    open/syncd    /var
hd3                 jfs2       16    32    2    open/syncd    /tmp
hd1                 jfs2       32    64    2    open/syncd    /home
hd10opt             jfs2       32    64    2    open/syncd    /opt
fwdump              jfs2       3     6     2    open/syncd    /var/adm/ras/platform
paging00            paging     17    34    2    open/syncd    N/A
fslv00              jfs2       160   320   2    open/syncd    /oracle
loglv00             jfslog     1     2     2    open/syncd    N/A
lv00                jfs        80    160   2    open/syncd    /arch1
lv01                jfs        80    160   2    open/syncd    /arch2
testlv              jfs2       5     10    2    closed/syncd  N/A
 
运行命令:lsvg,检查rootvg的Quorum为1,例如:
# lsvg rootvg
VOLUME GROUP:       rootvg                   VG IDENTIFIER:  00cfd8fe00004c000000011b1d4ee4ef
VG STATE:           active                   PP SIZE:        128 megabyte(s)
VG PERMISSION:      read/write               TOTAL PPs:      1092 (139776 megabytes)
MAX LVs:            256                      FREE PPs:       72 (9216 megabytes)
LVs:                16                       USED PPs:       1020 (130560 megabytes)
OPEN LVs:           15                       QUORUM:         1
TOTAL PVs:          2                        VG DESCRIPTORS: 3
STALE PVs:          0                        STALE PPs:      0
ACTIVE PVs:         2                        AUTO ON:        yes
MAX PPs per VG:     32512                                     
MAX PPs per PV:     1016                     MAX PVs:        32
LTG size (Dynamic): 256 kilobyte(s)          AUTO SYNC:      no
HOT SPARE:          no                       BB POLICY:      relocatable
 
rootvg做了镜像,QUORUM必须是1,如果不为1,则运行下列命令进行纠正:
# chvg -Qn rootvg
# bosboot -ad /dev/hdisk0

5.3 文件系统信息

运行命令:df –k,检查文件系统信息,例如:
# df -k
Filesystem    1024-blocks      Free %Used    Iused %Iused Mounted on
/dev/hd4          2097152   2006072    5%    13236     3% /
/dev/hd2          2621440   1123508   58%    32019    12% /usr
/dev/hd9var       2097152   2054892    3%      606     1% /var
/dev/hd3          4194304   4145972    2%      209     1% /tmp
/dev/fwdump        393216    392828    1%        4     1% /var/adm/ras/platform
/dev/hd1         70713344  18760772   74%    46322     2% /home
/proc                   -         -    -         -     -  /proc
/dev/hd10opt       262144    151180   43%      709     3% /opt
/dev/fslv01      70713344  18760772   74%    46322     2% /u
 
当文件系统的使用率大于80%时,请注意观察文件系统使用率的增长情况,如果在动态增加,请根据实际情况增加文件系统大小。当文件系统满时,会影响系统或系统应用的使用。
 
手动增加文件系统大小:
# chfs –a size=+512M /var
动态把文件系统/var大小增加512M
 
手动减小文件系统大小(只适合于AIX 5.3或以后的版本):
# chfs –a size=-1G /u
动态把文件系统/u大小减小1G

第6章 网络检查

6.1 网卡状态

运行命令:netstat –v,检查网卡的状态,例如:
# netstat –v en0

6.2 网卡IP地址

运行命令:ifconfig –a,检查网卡IP地址设置,例如:
# ifconfig -a
en2: flags=5e080863,c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD,PSEG,CHAIN>
        inet 64.1.35.25 netmask 0xffffff00 broadcast 64.1.35.255
         tcp_sendspace 131072 tcp_recvspace 65536
lo0: flags=e08084b<UP,BROADCAST,LOOPBACK,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT>
        inet 127.0.0.1 netmask 0xff000000 broadcast 127.255.255.255
        inet6 ::1/0
         tcp_sendspace 65536 tcp_recvspace 65536
 
网卡en2的IP地址为64.1.35.25,掩码是255.255.255.0,处于UP状态。

6.3 路由配置

运行命令:netstat -rn,检查网络路由设置,例如:
# netstat -rn
 
 
 

6.4 IP连通性

运行命令:ping ipaddress,测试网络IP连通性,例如:
# ping 172.16.1.73
 
 
 

6.5 hosts文件

运行命令:cat /etc/hosts,检查hosts文件是否有问题,例如:
# cat /etc/hosts
127.0.0.1               loopback localhost      # loopback (lo0) name/address
 
64.1.35.21  p550_1
64.1.35.22  qzsvr_3
 
/etc/hosts文件格式与上面输出类似,如果格式不对,则会出现IP与主机名解析出错。

第7章 HACMP检查

7.1 I/O Pacing参数

运行命令:lsattr –El sys0,检查I/O Pacing 高水平和低水平标记,例如:
# lsattr -El sys0 -a maxpout -a minpout
maxpout    33    HIGH water mark for pending write I/Os per file   True
minpout    24    LOW water mark for pending write I/Os per file    True
 
HACMP环境,建议maxpout值为33,minpout值为24

7.2 syncd参数

运行命令:grep syncd /sbin/rc.boot,检查syncd参数,例如:
# grep syncd /sbin/rc.boot
nohup /usr/sbin/syncd 10 > /dev/null 2>&1 &
 
HACMP环境,建议syncd参数为10

7.3 HACMP版本

运行命令:lslpp –L cluster,检查HACMP软件版本,例如:
# lslpp –L cluster.*
  Fileset                      Level  State  Type  Description (Uninstaller)
  ----------------------------------------------------------------------------
  cluster.adt.es.client.include
                             5.4.1.0    C     F    ES Client Include Files
  cluster.adt.es.client.samples.clinfo
                             5.4.0.0    C     F    ES Client CLINFO Samples
  cluster.adt.es.client.samples.clstat
                             5.4.1.1    C     F    ES Client Clstat Samples
  cluster.adt.es.client.samples.libcl
                             5.4.0.0    C     F    ES Client LIBCL Samples
  cluster.adt.es.java.demo.monitor
                             5.4.0.0    C     F    ES Web Based Monitor Demo
  cluster.doc.en_US.es.html  5.4.0.0    C     F    HAES Web-based HTML
                                                   Documentation - U.S. English
  cluster.doc.en_US.es.pdf   5.4.1.0    C     F    HAES PDF Documentation - U.S.
                                                   English
  cluster.es.cfs.rte         5.4.1.2    C     F    ES Cluster File System Support
  cluster.es.client.lib      5.4.1.3    C     F    ES Client Libraries
  cluster.es.client.rte      5.4.1.3    C     F    ES Client Runtime
  cluster.es.client.utils    5.4.1.3    C     F    ES Client Utilities
  cluster.es.client.wsm      5.4.1.3    C     F    Web based Smit
  cluster.es.cspoc.cmds      5.4.1.3    C     F    ES CSPOC Commands
  cluster.es.cspoc.dsh       5.4.1.0    C     F    ES CSPOC dsh
  cluster.es.cspoc.rte       5.4.1.2    C     F    ES CSPOC Runtime Commands
  cluster.es.plugins.dhcp    5.4.0.0    C     F    ES Plugins - dhcp
  cluster.es.plugins.dns     5.4.0.0    C     F    ES Plugins - Name Server
  cluster.es.plugins.printserver
                             5.4.0.0    C     F    ES Plugins - Print Server
  cluster.es.server.cfgast   5.4.1.0    C     F    ES Two-Node Configuration
                                                   Assistant
  cluster.es.server.diag     5.4.1.3    C     F    ES Server Diags
  cluster.es.server.events   5.4.1.3    C     F    ES Server Events
  cluster.es.server.rte      5.4.1.3    C     F    ES Base Server Runtime
  cluster.es.server.testtool
                             5.4.1.0    C     F    ES Cluster Test Tool
  cluster.es.server.utils    5.4.1.3    C     F    ES Server Utilities
  cluster.es.worksheets      5.4.1.0    C     F    Online Planning Worksheets
  cluster.license            5.4.0.0    C     F    HACMP Electronic License
  cluster.man.en_US.es.data  5.4.1.3    C     F    ES Man Pages - U.S. English
  cluster.msg.en_US.cspoc    5.4.1.0    C     F    HACMP CSPOC Messages - U.S.
                                                   English
  cluster.msg.en_US.es.client
                             5.4.1.0    C     F    ES Client Messages - U.S.
                                                   English
  cluster.msg.en_US.es.server
                             5.4.1.2    C     F    ES Recovery Driver Messages -
                                                   U.S. English
 
根据上面命令的输出,可以确定HACMP软件版本为:5.4.1.3

7.4 HACMP日志

运行命令:cat /tmp/hacmp.out,检查HACMP日志是否报错,例如:
# cat /tmp/hacmp.out
 
仔细检查hacmp.out文件中是否有报错,如果有,请记录错误信息,用于故障分析。
 
备注:HACMP 5.4或以后,hacmp.out文件保存在缺省目录/var/hacmp/log

7.5 HACMP运行状态

运行命令:/usr/es/sbin/cluster/clstat,检查HACMP的运行状态,例如:
# /usr/es/sbin/cluster/clstat
lstat - HACMP Cluster Status Monitor
                -------------------------------------
 
Cluster: mis_cluster01  (1229182960)
Sun Dec 14 03:26:29 BEIST 2008
                State: UP               Nodes: 2
                SubState: STABLE
 
        Node: H85               State: UP
           Interface: H85_boot2 (0)             Address: 172.16.32.2
                                                State:   UP
           Interface: H85_boot1 (0)             Address: 172.16.33.2
                                                State:   UP
           Interface: H85_tty0_01 (2)           Address: 0.0.0.0
                                                State:   UP
           Interface: H85_svc (0)               Address: 10.98.2.7
                                                State:   UP
           Resource Group: oracle_vg                    State:  On line
 
        Node: M85               State: UP
           Interface: M85_boot2 (0)             Address: 172.16.32.3
                                                State:   UP
           Interface: M85_boot1 (0)             Address: 172.16.33.3
                                                State:   UP
           Interface: M85_tty0_01 (2)           Address: 0.0.0.0
                                                State:   UP
           Resource Group: mis_vg                       State:  On line 
 
 
************************ f/forward, b/back, r/refresh, q/quit ************************
 
HACMP集群的运行状态,正常情况下的输出信息与上面类似,SubState为STABLE。

7.6 接管测试

Service IP接管测试,可以手动拔掉主网卡的网线。正常情况下,Service IP会漂移到备用网卡上。资源组的接管测试,只能通过模拟直接宕机主机或者运行命令:smitty clstop手动让备用机接管主机,这种情况除了Service IP会切换到备机,资源组也会切换到备用机上。
如果发生Service IP或资源组不能切换的情况,则需要引起注意,HACMP有故障,需要处理。

第8章 系统备份检查

当系统软硬件发生改变后,请立即做好系统全备份。当发生rootvg损坏时,能够及时使用系统备份进行恢复。例如:
检查系统备份(rootvg备份)的历史记录,请运行命令:
# lsmksysb -B
#Device;Command;Date;Shrink Size;Full Size;Maintenance Level
/dev/rmt0;"mksysb -m -v -i /dev/rmt0";Thu Mar 29 17:08:56 BEIST 2007;12639;26368;5200-07
/dev/rmt0;"mksysb -m -i /dev/rmt0";Thu Jun 28 10:21:42 BEIDT 2007;12624;26368;5200-07
/dev/rmt0;"mksysb -m -i /dev/rmt0";Wed Jun  4 15:31:01 BEIDT 2008;13182;26368;5200-07
/dev/rmt0;"mksysb -m -i /dev/rmt0";Mon Feb 16 18:26:32 BEIST 2009;13379;26368;5200-07
 
从上面系统备份的历史记录可以看出,最近的一次系统备份时间是:Mon Feb 16 18:26:32 BEIST 2009
 
系统即使长期未做改变,最好是3个月也做一次系统备份。如果做巡检时,发现系统未做系统备份,请提醒用户,且同时帮用户做一份系统备份,运行命令:
# mksysb –i /dev/rmt0
 
做好系统备份后,请在磁带上做好标注,记录的信息如下:
备份机器名称           例:db1
备份机器序列号         例:10-12345
备份时间               例:2009年8月20日
 
备注:对于用户数据,建议最好使用专业备份软件进行每天定时备份。

第9章 系统错误检查及故障诊断

9.1 检查CPU

运行命令:lsdev -Cc processor和bindprocessor –q,检查CPU是否正常,例如:
# lsdev -Cc processor
proc0         Available 00-00         Processor
proc2         Available 00-02         Processor
proc4         Available 00-04         Processor
proc6         Available 00-06         Processor
 
上面输出信息表示系统有4个物理处理器可用。
 
# bindprocessor –q
The available processors are: 0 1 2 3 4 5 6 7
 
上面输出信息表示系统有8个处理器可用。
 
备注:对于Power5或以后的机器,如果启用了smtctl功能,则bindprocessor –q显示的CPU数是lsdev -Cc processor显示的CPU数的两倍,即bindprocessor –q显示的是逻辑CPU数,而bindprocessor –q显示的是物理CPU数。

9.2 检查内存

运行命令:lsattr -El mem0,检查内存是否正常,例如:
# lsattr -El mem0
goodsize 1024 Amount of usable physical memory in Mbytes False
size     1024 Total amount of physical memory in Mbytes   False
 
对比一下,实际可用的物理内存和总的物理内存大小,检查内存是否正常。

9.3 检查内置硬盘

运行命令:lspv hdiskX,检查内置硬盘是否正常,例如:
# lspv hdisk0
PHYSICAL VOLUME: hdisk0 VOLUME GROUP: rootvg
PV IDENTIFIER: 000ca13f7ebe3b7e VG IDENTIFIER 000ca13f7ebe3e67
PV STATE: active
STALE PARTITIONS: 0 ALLOCATABLE: yes
PP SIZE: 32 megabyte(s) LOGICAL VOLUMES: 11
TOTAL PPs: 542 (17344 megabytes) VG DESCRIPTORS: 2
FREE PPs: 217 (6944 megabytes) HOT SPARE: no
USED PPs: 325 (10400 megabytes)
FREE DISTRIBUTION: 108..20..00..00..89
USED DISTRIBUTION: 01..88..108..108..20
如果PV STATE为active,表示此硬盘处于活动状态。另外,正常情况下,硬盘的“STALE PARTITIONS:”属性值应该等于0。如果运行lspv不能正常显示硬盘状态,硬盘可能有故障,请运行errpt和diag命令对硬盘进行故障分析。

9.4 检查内置磁带机

运行命令:/usr/lpp/diagnostics/bin/utape -cd rmt0 –n,检查 ,例如:
# /usr/lpp/diagnostics/bin/utape -cd rmt0 –n
 
显示结果为磁带机使用的小时数,若大于72小时,则无论磁带机黄灯是否亮都应使用清洁带清洗。
 

9.5 检查邮件信息

运行命令:mail,检查邮件里是否有发给root用户的错误报告,例如:
# mail
? n
Message 130:
From root Tue Dec 12 05:02:06 2006
Date: Tue, 12 Dec 2006 05:02:06 +0800
From: root
To: ssa_adm
Subject: ssa0
 
Tue Dec 12 05:01:05 BEIST 2006
Error Log Analysis has detected error(s) that may require your attention.
ssa0 SRN 44004 IBM SSA 160 SerialRAID Adapter (14109100)
 
上面输出信息表示在Tue Dec 12 05:01:05 BEIST 2006系统测检到了一个硬件错误,出故障的硬件是一块SSA卡,SRN错误号是44004。
 
运行?将显示所有命令的帮助。

9.6 检查系统日志

运行命令:errpt,检查系统是否有错误发生过,例如:
# errpt
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
F7863CFE   0806170008 P H pdisk3         DISK OPERATION ERROR
F7863CFE   0806160008 P H pdisk3         DISK OPERATION ERROR
F7863CFE   0806150008 P H pdisk3         DISK OPERATION ERROR
FE9E9357   0806130008 P H ssa0           DISK OPERATION ERROR
 
上面命令将列出系统所有的简短出错信息。
TIMESTAMP: MMDDHHMMYY (月日时分年)
T 类型: P 永久; T 临时; U 未知   永久性的错误应引起重视
C 分类: H 硬件; S 软件; O 用户; U未知
 
# errpt -d H 列出所有硬件出错信息
# errpt -d S 列出所有软件出错信息
# errpt -aj IDENTIFIER 列出详细出错信息
 
# errpt –aj F7863CFE
---------------------------------------------------------------------------
LABEL:          SSA_DISK_ERR4
IDENTIFIER:     F7863CFE
 
Date/Time:       Wed Aug  6 17:00:15 BEIST 2008
Sequence Number: 12622
Machine Id:      000087124C00
Node Id:         statcq
Class:           H
Type:            PERM
Resource Name:   pdisk3         
Resource Class:  pdisk
Resource Type:   scsd
Location:        USSAPICC-D2
VPD:            
        Manufacturer................IBM    
        Machine Type and Model......DGHC09B
        Part Number.................09L4295    
        ROS Level and ID............9908
        Serial Number...............681A01CBGA
        EC Level....................F23980   
        Device Specific.(Z2)........CUSMA908 
        Device Specific.(Z3)........09L4295    
        Device Specific.(Z4)........98312
 
Description
DISK OPERATION ERROR
 
Probable Causes
DASD DEVICE
 
Failure Causes
DISK DRIVE
 
        Recommended Actions
        PERFORM PROBLEM DETERMINATION PROCEDURES
 
Detail Data
SENSE DATA
7000 0200 0000 0018 0000 0000 3100 0100 0000 0000 0111 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
 
当系统发生硬件故障时,请根据具体的实际情况运行diag命令对硬件进行诊断。如果发生的是软件故障,请详细查看错误信息后,对错误信息进行分析。

9.7 硬件故障诊断

运行命令:diag,对故障硬件进行诊断,例如:
# errpt
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
F7863CFE   0806170008 P H pdisk3         DISK OPERATION ERROR
F7863CFE   0806160008 P H pdisk3         DISK OPERATION ERROR
F7863CFE   0806150008 P H pdisk3         DISK OPERATION ERROR
FE9E9357   0806130008 P H ssa0           DISK OPERATION ERROR
 
上面输出表示pdisk3有硬件故障,则需要运行diag进行故障分析,步骤如下:
# diag
-> 选高级诊断(Advance Diagnostic)
-> 选问题诊断Problem Determination)或选系统检查System Verification)
 
(选PD会对系统错误记录进行分析)
diag运行后会给出SRN代码故障、设备名称及地址代码等。对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。
 
如果要诊断系统所有硬件部件,则运行:
# diag
-> Enter
-> Advanced Diagnostics Routines
-> System Verification
-> All Resources
-> F7
输出结果为:No trouble was found,表示系统硬件无故障,运行正常。
 
备注: 运行diag对系统所有的资源进行诊断,可能对系统会有影响。为了防止对主机应用的正常运行造成影响,防止某些部件测试失败时造成应用停止,执行diag诊断最好是在应用停止的情况下进行。
 
当巡检完毕,系统运行正常,没有故障,或者系统有故障,处理掉故障后,请运行命令:errclear 0,清除系统错误日志。
 

9.8 检查启动时间

运行命令:who –b、date和uptime,检查系统的启动时间,例如:
# who -b
   .        system boot Jan 21 18:42
                  
# date
Wed Feb 11 17:13:48 CST 2009
 
# uptime
  05:13PM   up 20 days,  22:31,  579 users,  load average: 3.63, 3.35, 3.27
 
上面3条命令的输出,可以确定系统的启动时间是: 2009 Jan 21 18:42

9.9 检查启动日志

运行命令:alog -o -t boot,检查系统的启动日志是否正常,例如:
# alog -o -t boot
......
****************** no stderr ***********
----------------
calling savebase
return code = 0
****************** no stdout ***********
****************** no stderr ***********
cfgmgr: 0514-621 WARNING: The following device packages are required for
        device support but are not currently installed.
devices.fcp.changer
Configuration time: 28 seconds
Starting AIX Windows Desktop.....
......
 
上面输出的信息中,有一条告警信息:cfgmgr: 0514-621 WARNING。

9.10 检查SP日志

如果有必要,请登录到Service Processor检查SP日志。

第10章 性能检查

10.1 CPU性能

运行命令:sar -P ALL 1 10,检查CPU的使用率,确定是否有CPU瓶颈故障,例如:
# sar -u 1 10
AIX mscp01 1 5 0001AC2F4C00    09/06/05
12:40:58    %usr    %sys    %wio   %idle
12:40:59       0       0       0     100
12:41:00       0       1       0      99
12:41:01       0       1       0      99
12:41:02       0       0       0     100
12:41:03       0       0       0     100
12:41:04       0       0       0     100
12:41:05       0       8      18      74
12:41:06       0       0       0     100
12:41:07       0       2       3      95
12:41:08       0       3       6      91
Average        0       1       3      96
 
当%user + %sys大于80%时,则系统有CPU性能瓶颈。
 
语法:
sar -[abckmqruvwyA] inteval repetition
-b buffer 活动
-c 系统调用
-k 内核进程统计
-m 消息及信号量活动
-q 正在运行的队列数及等待队列数
-r 页交换统计
-u CPU利用
-P CPU负载

10.2 内存性能

运行命令:vmstat 1 10,检查系统是否有内存瓶颈,例如:
# vmstat 1
System configuration: lcpu=2 mem=3920MB
 
kthr    memory                page              faults          cpu   
-----  -----------    ------------------------ ------------  -----------
r  b    avm   fre    re  pi  po  fr   sr  cy  in   sy  cs   us sy id wa
0  0  229367 332745   0   0   0   0    0   0   3  198  69    0  0 99  0
0  0  229367 332745   0   0   0   0    0   0   3   33  66    0  0 99  0
0  0  229367 332745   0   0   0   0    0   0   2   33  68    0  0 99  0
0  0  229367 332745   0   0   0   0    0   0  80  306 100    0  1 97  1
0  0  229367 332745   0   0   0   0    0   0   1   20  68    0  0 99  0
0  0  229367 332745   0   0   0   0    0   0   2   36  64    0  0 99  0
0  0  229367 332745   0   0   0   0    0   0   2   33  66    0  0 99  0
0  0  229367 332745   0   0   0   0    0   0   2   21  66    0  0 99  0
0  0  229367 332745   0   0   0   0    0   0   1  237  64    0  0 99  0
0  0  229367 332745   0   0   0   0    0   0   2   19  66    0  0 99  0
0  0  229367 332745   0   0   0   0    0   0   6   37  76    0  0 99  0
 
当po数持续大于0时,表示有内存换页到换页空间,则系统有内存瓶颈。
 
说明:
r:正在运行的进程
b:被阻挡的进程
avm:活动的虚内存,单位4kb
fre:自由列表,位4kb
po:页换出
pi:页换入
sy:系统占用CPU
id:空闲CPU
wa:等待的CPU

10.3 I/O性能

运行命令:iostat 1 10,检查系统是否有I/O瓶颈,例如:
# iostat 1 10
tty:      tin         tout   avg-cpu:  % user    % sys     % idle    % iowait
          0.5         27.2               0.1      1.2       97.5       1.2
Disks:        % tm_act     Kbps      tps    Kb_read   Kb_wrtn
hdisk0           0.0       0.0       0.0         64     18596
hdisk1           0.0       0.0       0.0          0     18584
hdisk5           0.0       0.0       0.0          0         0
hdisk2           0.0       0.0       0.0          0         0
hdisk7           0.0       0.0       0.0          0         0
hdisk6           0.0       0.0       0.0          0         0
hdisk4           0.0       0.0       0.0          0         0
hdisk3           0.0       0.0       0.0          0         0
hdisk8           0.0       0.0       0.0          0         0
cd0              0.0       0.0       0.0          0         0
 
当%iowait大于30%,%tm_act大于60%,则系统有I/O瓶颈。
 
命令语法:
iostat [-t] [-d] [devices] [interval] [count]
 
-t 参数可以报告TTY和CPU的统计信息
-d 参数可以报告磁盘的统计信息
-t 参数和-d 参数不能同时使用
 
iostat [interval] [count]
 
iostat后面跟时间间隔和显示次数可以周期性地报告TTY、CPU和磁盘的统计信息。

10.4 LPAR分区性能

运行命令:lparstat 1 10 ,例如:
# lparstat -h 1 5
System configuration: type=Dedicated mode=Capped smt=On lcpu=4 mem=3920
 
%user  %sys  %wait  %idle  %hypv hcalls
-----  ----  -----  -----  ----- ------
  0.0   0.7    0.0   99.3   44.4 5933918
  0.4   0.3    0.0   99.3   44.9 5898086
  0.0   0.1    0.0   99.9   45.1 5930473
  0.0   0.1    0.0   99.9   44.6 5931287
  0.0   0.1    0.0   99.9   44.6 5931274
 
检查%user+%sys的使用率是否大于80%

10.5 topas性能监控

运行命令:topas,可以综合检查系统的CPU、内存、I/O性能,例如:
# topas
Topas Monitor for host:    p590lp3              EVENTS/QUEUES    FILE/TTY
Thu Jun  1 10:22:40 2006   Interval:  2         Cswitch     821  Readch   207.9K
                                                Syscall   11283  Writech  241.8K
Kernel    1.9   |#                           |  Reads       483  Rawin         0
User     28.8   |#########                   |  Writes     3359  Ttyout   103.3K
Wait      0.0   |#                           |  Forks         0  Igets         0
Idle     69.3   |####################        |  Execs         0  Namei      1496
Physc =  1.30                     %Entc=  32.4  Runqueue    0.5  Dirblk        0
                                                Waitqueue   0.0
Network  KBPS   I-Pack  O-Pack   KB-In  KB-Out
lo0     301.8    274.8   274.8   150.9   150.9  PAGING           MEMORY
en1     259.0    281.3   135.2    31.8   227.2  Faults       35  Real,MB    8191
en2       0.0      0.0     0.0     0.0     0.0  Steals        0  % Comp     79.1
                                                PgspIn        0  % Noncomp  11.9
Disk    Busy%     KBPS     TPS KB-Read KB-Writ  PgspOut       0  % Client    7.1
hdisk0    3.9    140.4    12.0     4.0   136.4  PageIn        0
hdisk1    3.9    136.4    11.0     0.0   136.4  PageOut      33  PAGING SPACE
                                                Sios         10  Size,MB    4096
Name            PID  CPU%  PgSp Owner                            % Used     10.3
java         393288   6.4 247.9 weblogic        NFS (calls/sec)  % Free     89.6
java         335958   1.4 1146.1 weblogic       ServerV2       0
java         249876   0.5 251.2 weblogicc       ClientV2       0   Press:
topas        303294   0.0   1.2 root            ServerV3       0   "h" for help
tail         368718   0.0   0.2 weblogic        ClientV3       0   "q" to quit
gil           61470   0.0   0.1 root
aixmibd       90270   0.0   0.6 root
rpc.lock     262274   0.0   0.2 root
pilegc        36882   0.0   0.1 root
netm          57372   0.0   0.0 root
syncd        118890   0.0   0.5 root
xmgc          40980   0.0   0.0 root
IBM.Sens     311456   0.0   1.7 root
lrud          16392   0.0   0.1 root
rmcd         266374   0.0   2.8 root
IBM.CSMA     290962   0.0   2.7 root
IBM.DMSR     233636   0.0   3.6 root
shlap64       98356   0.0   0.1 root
srcmstr      106688   0.0   0.8 root

10.6 换页空间使用率

运行命令:lsps -a,检查换页空间的使用率是否正常,例如:
# lsps -a
Page Space  Physical Volume   Volume Group  Size   %Used  Active  Auto  Type
hd6         hdisk0            rootvg        2048MB   30    yes     yes    lv
paging00    hdisk1            rootvg        2048MB   30    yes     yes    lv
 
从上面输出信息可以看出,换页空间的使用率是30%。当换页空间的使用率超过70%时,需要引起注意,系统可能有内存瓶颈或其它故障。
 

第11章 其它检查

11.1 CDE登录

在PC机或笔记本电脑上安装一个图形终端仿真软件Xmanager,然后测试登录CDE图形桌面或XTERM,看是否正常。
备注:如果用户的应用不需要图形环境或用户管理AIX不需要图形环境,则可以不用检查此项。

11.2 远程登录

使用一个字符终端仿真软件,通过IP网路连接到AIX,检查是否能正常登录。

11.3 机器清洁状况

主要检查机器的进风口和出风口是否积满了很多灰尘。

11.4 微码升级

检查机器的微码,看是否需要升级。如果机器能正常工作,建议一般情况下不需要升级机器的微码。

11.5 系统补丁升级

检查AIX操作系统补丁,看是否需要升级。如果系统能正常运行,建议一般情况下不需要升级操作系统补丁。

11.6 系统信息收集

如果系统运行正常,不需要运行snap命令收集系统信息。只有系统运行不正常,且现场解决不掉故障的情况下,才需要运行snap –ac 收集系统信息。
 

继续浏览
公司新闻
生日会~感恩相伴,遇见美好 2022-08-09
中国人民解放军建军95周年,致敬最可爱的人! 2022-08-01
祝贺广州裕鼎顺利通过ISO 27001年审 2022-05-06
裕鼎公司与联想达成合作伙伴 2022-04-20
裕鼎公司成为宝德X86服务器全系列产品金牌合作伙伴 2022-03-30
IT科技前沿
BaaS兴起,数据备份正在远离本地存储 2022-10-13
什么是AIOps? 2022-06-09
百分点深入探讨大数据价值挖掘之道 2016-06-01
16路、32路还是64路?真的是越高越好吗? 2016-06-01
硅谷大数据:什么是 “改变世界” 的大数据公司 2016-05-11
签约新闻
喜讯:裕鼎公司中标某医院维护项目 2022-10-13
喜讯:裕鼎公司中标某航空公司维护项目 2022-10-13
喜讯:裕鼎公司中标某海关维护项目 2021-12-09
喜讯:裕鼎公司中标广州市某水龙头公司维护项目 2021-12-08
恭喜鑫鼎公司中标上海某总站服务器及数据库维保项目 2016-05-19
行业新闻
Slackware 15.0发布:历史最久且在维护的Linux发行版本 2022-10-12
突破边缘计算瓶颈,NVIDIA持续发力 2022-10-11
大数据如何赋予医疗行业最大价值? 2022-10-11
三大典型计算场景服务器推荐:高密度、GPU、边缘 2022-05-06
2022年数据保护趋势预测 2021-12-07