设为首页 收藏本站
查看: 835|回复: 0

[经验分享] IBM小型机维护

[复制链接]

尚未签到

发表于 2015-10-4 09:49:44 | 显示全部楼层 |阅读模式
  第一章、机房环境及物理检查
  一、机房内环境要求
  温度与湿度:
  最佳工作温度:20-25摄氏度
  极限工作温度:10-40摄氏度
  湿度: 8-80%(在23摄氏度条件下)
  如果不是工作在最佳温度,请注意改善机房环境
  同时机房要保证清洁.
  机房应保持清洁,若空气灰尘过多,很容易造成资源读写错误及磁盘机中磁盘或读写磁头毁损。
  二、电源要求
  电    压:  要求电压稳定, 尖峰电压会损坏设备
  电压范围:  220V +/- 10%, 即200-240V, 50-60Hz
  电源功率:  视机器类型和系统配置而定
  电源线  :  标准的零, 地, 火三相电, 其中零, 地电压不得超过3.0V.
  电源接驳:  用符合电流要求的空气开关或其他设备和主机电源线接驳,保证计算机系统的可靠工作应使用稳压电源和UPS,并建议配备发电机组;对于冗于电源的接入,建议采用两路单独输入.
  三、硬件检查
  检查服务器、磁阵的安装、电源线、7133和主机接线符合要求。
  服务器状态检查:
  当服务器处于启动和正常工作状态时,其前面板上的液晶显示屏上应无信息显示。
  当液晶显示器上出现带数字和字母的信息时,说明有硬件告警。可以通过查询相关机型的Service Guide查到相应告警原因,情况严重的,则要立即通知IBM技术专家进行问题排查。
  7133状态检查:
  磁阵前面板上有7133机柜的状态灯(与电源灯并排)和各硬盘的状态灯(一排小灯,与各硬盘位置一一对应)。
  1. 当机柜的状态灯出现橙黄色时,说明有硬件告警,此时要检查磁柜的电源、接线、硬盘等。如果有硬件故障则立即进行更换和更正,如果查不出具体问题,则需要联系相关专家进一步诊断。
  2. 当硬盘工作正常时,与各硬盘对应的硬盘灯会呈绿色,如无读写,则绿灯一直亮,如该硬盘有读写操作,则绿灯会不规则闪烁,当硬盘损坏时或SSA环路出现问题时,则硬盘状态灯将熄灭,或者呈闪烁状态:以1~3秒的频率有规律地、不停地闪烁
  
  
  第二章、系统日常维护流程
  2.1系统启动
  系统启动正常顺序如下:
  首先对外设(磁盘阵列、磁带库等)加电。
  待所有外设加电自检完成后, 主机加电正常起机。主机加电后,系统进行自检,在液晶显示屏显示”ok”后,才能按白色POWER键起机.
  启动主机HACMP,启动后可用命令 tail -f /tmp/hacmp.out 来检查启动情况,在HACMP未完全启动前不要进行下一步。
  检查服务器的网络地址,路由表

(可用netstat -i , netstat -rn 等),检查文件系统,逻辑卷(可用 mount , lsvg -o 等)。
检查各项应用是否工作正常。  
  2.2系统关闭
停止HACMP  ( smitty clstop)。
查看HACMP的状态,检查服务器的网络地址,路由表(可用netstat -i , netstat -rn 等),检查文件系统,逻辑卷(可用 mount , lsvg -o 等)。在HACMP未完全停止前不要进行下一步。
关闭主机 (shutdown –F)。重启系统可以使用:shutdown -Fr
如有必要的话,按磁盘阵列前方的白色按钮关闭磁盘阵列。
  
2.3查看系统的错误记录
在系统运行时,一些系统错误会记录在errlog 中,其中有些错误还会在终端上显示。检查错误日志可用以下命令:
  #errpt|more 查看系统所有的记录
  IDENTIFIER  TIMESTAM P  T  C  RESOURCE_NAME  DESCRIPTION
E85C5C4C    0426104399   P   S   CFGLFT       SOFTWARE PROGRAM ERROR
2BFA76F6    0426104099   T   S   SYSPROC      SYSTEM SHUTDOWN BY USER
9D4CF6E7    0426104399   T   O   errdemon       ERROR LOGGING TURNED ON
1E2AC07E    0426103999   T   O   errdemon       ERROR LOGGING TURNED OFF
1E5EER4T    0423132999   T   O   clstrmgr        OPERATOR NOTIFICATION     
  其中
  IDENTIFIER 为错误编号,当需要检查详细信息时常会用到。
  TIME STAMP 为时间标签,它记录的是出错时间,其格式:月月日日时时分分年年
  T 为Type , 它记录的是错误类型
P :为永久错误,需引起注意
T :为临时错误。
  C 为Class,  它记录的是错误种类,如
H : Hardware
S : Software
O : Errloger command messages
U : undetermined
  RESOURCE_NAME  为错误来源
  DESCRIPTION  为错误描述
  #errpt -aj <IDENTIFIER> 查看系统详细记录内容
  其中I

DENTIFIER为错误编号,如 #errpt -aj 0426104399  
  #errpt -dH     查看系统所有的硬件出错记录

2.4日常检查服务器状态的项目及其相关命令
1 运行lsdev 命令配以各种参数,所列各种设备状态都应为Available。
#lsdev –C –H –S a       列出系统中可用设备。
#lsdev –Cc processor   列出系统中的所有CPU。
#lsdev –Cc memory   列出系统中的所有内存。
#lsdev –Cc disk    列出系统中的所有硬盘。
#lsdev -Cc adapter | grep ent  列出系统中的所有网卡
#lsdev -Cc adapter | grep scsi  列出系统中的所有SCSI卡。
#lsdev -Cc adapter | grep ssa  列出系统中的所有SSA卡。
  2 lspv命令
#lspv   显示系统中可用的PV。
#lspv hdiskn  显示hdiskn的具体信息。
#lsdev –Cc pdisk  显示磁盘阵列的硬盘的具体信息。
对SSA硬盘的检测:在对主机进行工作之前可以先把磁盘阵列上电,等主机完全启动后,登录到主机上,运行以下命令“ lsdev –Cc pdisk “,应该可以看到所有SSA硬盘,并且状态应为Available.。
  lsattr命令
#lsattr –El sys0
# lsattr –E –l mem0 列出系统中内存mem0的大小,本项目中内存有4GB。
  4  lsvg命令
#lsvg   列出系统中所有的vg。
#lsvg rootvg  列出rootvg的详细信息。
#lsvg –o         列出激活的vg
  5  oslevel命令
#oslevel  显示操作系统版本信息。
  6  netstat命令
#netstat –in 显示系统中各网卡的配置。可查看网卡的IP配置好
了没有。
  7  通过运行# diag 命令运行硬件诊断程序检测主机内所有硬件,检测结果为 “No trouble found ”显示各部分工作正常。

8  使用#diag命令(选择:Task Selection-> SSA Service Aids)对SSA硬盘链路连接的校验,可以通过SSA 工具里的Link Verification 来检测。如有必要,可以用 Certify Disk运行硬盘诊断部分进行硬盘的表面分析测试 ,由1% 至100%,检测结果显示主

机内置硬盘的所有扇区均读写正常。  
  9  lsps –a 查看PAGING SPACE的使用情况,如果使用率超过70%,就需要采取措施。
磁盘交换区大小的设定参考说明如下:
1. 系统实际内存小于64MB, paging space= 2×RAM
2. 系统实际内存在64MB~256MB之间, Page Space = RAM size + 16MB
3. 系统实际内存大于256MB,Page Space = 512+(RAM – 256)×1.25
对于AIX 4.3.3(或5L)当内存达到4GB~8GB,因为AIX 4.3.3(或5L)使用延迟的(deferred)paging space。Paging Space主要根据应用的要求来定。一般可初始3GB,然后观察paging space的使用情况,如果使用率超过70%,则需要增加paging space
  
10  lsvg –o | lsvg –il | grep –i stale查看有无stale的lv,如果输入该命令之后有输出结果,就需要采取措施。
  
11  检查双机状态:lssrc –g cluster 检查ha三个工作进程是否激活,/usr/sbin/cluster/clstat –a检查双机状态是否up,并检查/tmp/hacmp.out日志,看是否有异常信息。
  12  用vmstat, topas,sar 命令检查系统性能,检查cpu\memoyr\IO ,是否存在性能瓶颈。
  13  用instfix –ik | grep ML当前操作系统补丁版本补丁程序(PTF)是否满足稳定运行的需要。一般要求433操作系统补丁要打到10以上,5.1操作系统补丁要打到5以上
  14  使用df –kP查看磁盘空间占用率,请确保以下文件系统的占用率高于80%立即上报:
/  /var  /usr  /home  /tmp  /,其余文件系统的占用率高于95%立即上报
也可以到各文件系统下使用组合命令:find . –size +2048 –o ctime 1 –exec ls –l {} \; 查出大于1M或一天之内修改过的文件。
  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-122427-1-1.html 上篇帖子: 黑与红的传奇 IBM ThinkPad的20款经典机型 下篇帖子: [IBM developerWorks]JUnit 4预览
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表