设为首页 收藏本站
查看: 2546|回复: 0

Nagios监控Dell服务器硬件状态

[复制链接]
累计签到:1 天
连续签到:1 天
发表于 2016-4-25 10:00:39 | 显示全部楼层 |阅读模式
Server:
check_openmanage 是一个 Nagios 的插件,它基于 OMSA 获取相关的报道信息,用来检测安装有 OpenManage Server Administrator (OMSA) 的戴尔服务器的运行状态,包括存储系统、电源、温度等信息。
官网:http://folk.uio.no/trondham/software/check_openmanage.html
最新版本下载链接:http://folk.uio.no/trondham/soft ... anage-3.7.12.tar.gz
nagios提供了两种方式进行监控信息的获取。
      1、nagios 服务器端 check_nrpe 调用被监控端的 check_openmanage 来实现,这种方式要在被监控端安装 OMSA 和 check_openmanage,check_nrpe会消耗服务器性能,不建议使用
      2、nagios 服务器端直接通过 check_openmanage 来远程监控。这种方式要在 nagios 服务器端安装 perl-Net-SNMP,在被监控端安装SNMP和OMSA。这种方式也适合使用zabbix的运维监控环境。
1、安装 perl-Net-SNMP
1
[iyunv@localhost src]# yum install -y perl-Net-SNMP



2、check_openmanage安装
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
[iyunv@localhost src]# tar zxvf check_openmanage-3.7.12.tar.gz
[iyunv@localhost src]# cd check_openmanage-3.7.12
[iyunv@localhost check_openmanage-3.7.12]# cp check_openmanage /usr/local/nagios/libexec
[iyunv@localhost check_openmanage-3.7.12]# cd /usr/local/nagios/libexec
[iyunv@localhost libexec]# chown nagios:nagios check_openmanagenew
[iyunv@localhost libexec]# ./check_openmanage --help
【通用选项】
-f,--config         # 指定配置文件
-p,--perfdata       # 输出性能数据,常和--only连用,不要和-d连用
-t,--timeout 时间值 # 设定check_openmanage的执行超时时间
-c,--critical       # 自定义温度的critical阈值
-w,--warning        # 自定义温度的warning阈值
-F,--fahrenheit     # 使用华氏温度作为温度单位
-d,--debug          # 显示所有检查项目
-h,--help           # 获取check_openmanage帮助信息
-V,--version        # 获取check_openmanage的版本信息
【SNMP选项】
-H,--hostname       # 使用snmp协议,获取指定主机名或ip的服务器硬件信息
-C,--community      # 自定义snmp的团体名,默认为public
-P,--protocol       # 自定义snmp的协议版本,默认为2c
--port               # 自定义snmp的端口号,默认为161
-6,--ipv6           # 使用ipv6替代ipv4,默认为no
--tcp                # 使用TCP协议替代UDP协议,默认为no
【输出选项】
-i,--info           # 输出的警告信息加上服务器的SN号作为前缀
-e,--extinfo        # 输出系统信息
-s,--state          # 输出的信息之前自带警告级别,如warning或critical
-S,--short-state    # 输出的信息之前自带警告级别缩写,如W或C
-o,--okinfo         # 输出信息为一行(默认)
-B,--show-blacklist # 输出黑名单列表信息,如果加入黑名单的信息多了,可以通过-B查看黑名单的列表信息
-I,--htmlinfo       # 输出带可点击链接的html格式信息
【检查控制和黑名单】
-a,--all            # 获取日志统计和详细日志输出
-b,--blacklist component=ID号  # 黑名单,指定某个组件的指定ID信息不显示。ID信息通过./check_openmanage -d可以看到。和-d搭配使用无效
--only               # 仅输入某项监控数据
--check component=[0|1],esmlog=[0|1]  # 检查单个项目或组合项目,0为不检查,1为检查,单独使用
--no-storage         # 不检查存储信息
--vdisk-critical     # 将虚拟磁盘的任何警告都提升为崩溃级别critical
  
【自定义输出信息】
--postmsg '自定义信息'  # 在输出的结尾输出该自定义信息
在自定义信息中,我们可以使用如下变量
       %m  # 系统型号
       %s  # 系统SN号
       %b  # BIOS版本
       %d  # BIOS发型时间
       %o  # 操作系统名称
       %r  # 操作系统内核版本
       %p  # 物理磁盘数量
       %l  # 逻辑磁盘数量
       %n  # 表示换行符
       %%  # 表示%百分号
[iyunv@localhost libexec]# ./check_openmanage   如果提示"Storage Error",则需要加上--no-storage参数,不带任何参数默认输出服务器的warning和critical的报警信息
[iyunv@localhost libexec]# ./check_openmanage -s     输出带有状态提示的信息
[iyunv@localhost libexec]# ./check_openmanage -s -b ctrl_fw=0  不检查Firmware固件版本更新提示
[iyunv@localhost libexec]# ./check_openmanage -s -b pdisk_cert=all   不检查磁盘未认证的提示
[iyunv@localhost libexec]# ./check_openmanage -b ctrl_fw=0\/pdisk=0:0:1:0    不检查ID为0的Firmware固件版本更新提示和ID为0:0:1:0的物理磁盘的未认证提示
[iyunv@localhost libexec]# ./check_openmanage -b ctrl_fw=0\/pdisk=ALL   不检查ID为0的Firmware固件版本更新提示和未认证的物理磁盘提示
[iyunv@localhost libexec]# ./check_openmanage -d   输出所有检查项目
[iyunv@localhost libexec]# ./check_openmanage -i   将服务器的SN号作为警告信息的输出前缀
[iyunv@localhost libexec]# ./check_openmanage --no-storage   不检查存储
[iyunv@localhost libexec]# ./check_openmanage -e -b ctrl_fw=0\/pdisk=ALL   不显示Firmware固件版本更新和未认证磁盘提示信息,并输出系统信息




3、配置command
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
[iyunv@localhost libexec]# vim /usr/local/nagios/etc/objects/commands.cfg
#检查存储设备
define command {
    command_name check_storage
    command_line $USER1$/check_openmanage -H $HOSTADDRESS$ --only storage -p -s -b ctrl_fw=0
}
#检查cpu
define command {
    command_name check_cpu
    command_line $USER1$/check_openmanage -H $HOSTADDRESS$ --only cpu -p -s -b ctrl_fw=0
}
#检查内存
define command {
    command_name check_memory
    command_line $USER1$/check_openmanage -H $HOSTADDRESS$ --only memory -p -s -b ctrl_fw=0
}
#检查电源
define command {
    command_name check_power
    command_line $USER1$/check_openmanage -H $HOSTADDRESS$ --only power -p -s -b ctrl_fw=0
}
#检查温度
define command {
    command_name check_temp
    command_line $USER1$/check_openmanage -H $HOSTADDRESS$ --only temp -p -s -w $ARG1$ -c $ARG2$ -b ctrl_fw=0
}



--only是指只监控某一项,-p是进行画图,-s是状态描述,-b是黑名单,由于我们的服务器固件版本低,为不影响其他监控项在此我们将其加入黑名单将其剔除。

4、配置监控服务
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
define service{
    use                     local-service   
    host_name               usvr-131,usvr-119,usvr-70,usvr-71,usvr-72,usvr-73,usvr-82,usvr-83,usvr-84,usvr-85,usvr-86,usvr-87
    service_description     omsa_storage
    check_command           check_storage
    service_groups          dell-openmanage
    notifications_enabled   1  
    }   
define service{
    use                     local-service   
    host_name               usvr-131,usvr-119,usvr-70,usvr-71,usvr-72,usvr-73,usvr-82,usvr-83,usvr-84,usvr-85,usvr-86,usvr-87
    service_description     omsa_cpu
    check_command           check_cpu
    service_groups          dell-openmanage
    notifications_enabled   1  
    }   
define service{
    use                     local-service   
    host_name               usvr-131,usvr-119,usvr-70,usvr-71,usvr-72,usvr-73,usvr-82,usvr-83,usvr-84,usvr-85,usvr-86,usvr-87
    service_description     omsa_memory
    check_command           check_memory
    service_groups          dell-openmanage
    notifications_enabled   1  
    }   
define service{
    use                     local-service   
    host_name               usvr-131,usvr-119,usvr-70,usvr-71,usvr-72,usvr-73,usvr-82,usvr-83,usvr-84,usvr-85,usvr-86,usvr-87
    service_description     omsa_power
    check_command           check_power
    service_groups          dell-openmanage
    notifications_enabled   1  
    }   
define service{
    use                     local-service   
    host_name               usvr-131,usvr-119,usvr-70,usvr-71,usvr-72,usvr-73,usvr-82,usvr-83,usvr-84,usvr-85,usvr-86,usvr-87
    service_description     omsa_temp
    check_command           check_temp!"0=30/15"!"0=40/10"
    service_groups          dell-openmanage
    notifications_enabled   1  
    }





报错1:
ERROR: You need perl module Net::SNMP to run check_openmanage in SNMP mode
原因:
SNMP监控模式下,check_openmanage 需要 perl-Net-SNMP 支持
解决方案:
安装perl-Net-SNMP包
# yum install -y perl-Net-SNMP
报错2:
ERROR: (SNMP) OpenManage is not installed or is not working correctly
原因:
snmp未配置导致。如果先安装snmp,在安装omsa的时候会自动帮你配置好snmp
解决方案:
1、先安装net-snmp,再安装omsa(即srvadmin-all)
or
2、手动配置信息如下:
vim /etc/snmp/snmpd.conf
view all included .1   
access notConfigGroup "" any noauth exact all none none
smuxpeer .1.3.6.1.4.1.674.10892.1
报错3:
SNMP CRITICAL: No response from remote host 'X.X.X.X'
原因:
被监控端没有安装snmp服务
解决方案:
安装snmp服务
# yum install -y net-snmpd


Client:
对Dell服务器的硬件监控需要安装DELL的OMSA,DELL OMSA的全称为Dell Openmanage Server Administrator,它是戴尔公司基于自主研发力量开发的IT系统管理解决方案,

nagios监控Dell linux系统
1、安装snmp服务
1
[iyunv@BETA6 yum.repos.d]# yum -y install net-snmp net-snmp-devel net-snmp-utils




2、安装dell的yum源
wget -q -O - http://linux.dell.com/repo/hardware/latest/bootstrap.cgi | bash
或者
wget -q -O - http://linux.dell.com/repo/hardware/OMSA_7.2/bootstrap.cgi | bash
1
2
3
4
[iyunv@BETA6 src]# wget -q -O - http://linux.dell.com/repo/hardware/latest/bootstrap.cgi | bash
Cleaning up Everything
Done!
[iyunv@BETA6 src]#



3、安装dell osma
yum -y install OpenIPMI srvadmin-all
或者
yum install -y srvadmin-base srvadmin-storageservices   推荐,安装必要的软件,速度快
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
[iyunv@BETA6 yum.repos.d]# yum -y install OpenIPMI srvadmin-all
[iyunv@BETA6 yum.repos.d]# /opt/dell/srvadmin/sbin/srvadmin-services.sh start
[iyunv@BETA6 yum.repos.d]# /etc/init.d/dataeng stop
[iyunv@BETA6 yum.repos.d]# /etc/init.d/dataeng start
[iyunv@BETA6 yum.repos.d]# chkconfig dataeng on
或者
[iyunv@BETA6 yum.repos.d]# /opt/dell/srvadmin/sbin/srvadmin-services.sh enable  推荐
instsvcdrv         0:off   1:off   2:on    3:on    4:on    5:on    6:off
dataeng         0:off   1:off   2:on    3:on    4:on    5:on    6:off
dsm_om_shrsvc     0:off   1:off   2:on    3:on    4:on    5:on    6:off
ipmi             0:off   1:off   2:on    3:on    4:on    5:on    6:off
[iyunv@BETA6 yum.repos.d]# /opt/dell/srvadmin/sbin/srvadmin-services.sh status
dell_rbu(module) is running
ipmidriver is running
dsm_sa_datamgrd(pid 1331 1197) is running
dsm_sa_eventmgrd(pid 1381) is running
dsm_sa_snmpd(pid 1440) is running
dsm_om_shrsvcd(pid 1508) is running...
dsm_om_connsvcd(pid 1562) is running...
[iyunv@BETA6 yum.repos.d]# netstat -antlp|grep :1311



如果有此端口则说明我们的srvadmin安装成功,如果没有可能是安装出现问题了;dsm_om_connsvc服务监听了TCP协议的1311端口,并且提供了http访问的功能。另外我们安装完后首次启动用/opt/dell/srvadmin/sbin/srvadmin-services.sh start,否则用service dataeng start启动可能会有问题,导致omsa没有完全启动。dsm_om_connsvc服务监听了TCP协议的1311端口,并且提供了http访问的功能。

注意:
(1)一定要先安装snmp服务再安装omsa,这样omsa会自动将你的snmp服务进行配置,如果顺序颠倒则可能会导致报一下错误:

ERROR: (SNMP) OpenManage is not installed or is not working correctly

这是因为我们的/etc/snmp/snmpd.conf配置文件有漏改的地方,主要是以下几处:(改正以后如下)
view  all included   .1
view  systemview  included       .1.3.6.1.2.1.1
view  systemview  included      .1.3.6.1.2.1.25.1.1
access notConfigGroup ""any noauth exact all all none

(2)如果报一下错误“SNMP CRITICAL: No response from remote host 'X.X.X.X'”,则说明被监控端没有安装snmp服务

4、查看本机的硬件状态
1)查看系统主要组件的温度
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
[iyunv@BETA6 yum.repos.d]# /opt/dell/srvadmin/bin/omreport chassis temps
Temperature Probes Information

------------------------------------
Main System Chassis Temperatures: Ok
------------------------------------

Index                     : 0
Status                    : Ok
Probe Name                : System Board Inlet Temp
Reading                   : 27.0 C
Minimum Warning Threshold : 3.0 C
Maximum Warning Threshold : 42.0 C
Minimum Failure Threshold : -7.0 C
Maximum Failure Threshold : 47.0 C
......




2)查看虚拟硬盘的状态
1
2
3
4
5
6
7
8
9
10
11
12
13
14
[iyunv@BETA6 yum.repos.d]# /opt/dell/srvadmin/bin/omreport storage vdisk controller=0
Virtual Disk 0 on Controller PERC H710 Mini (Embedded)

Controller PERC H710 Mini (Embedded)
ID                        : 0
Status                    : Ok
Name                      : Virtual Disk 0
State                     : Ready
Hot Spare Policy violated : Not Assigned
Encrypted                 : No
Layout                    : RAID-5
Size                      : 1,675.50 GB (1799054426112 bytes)
Device Name               : /dev/sda
......




3)查看控制器(即RAID卡)的属性
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
[iyunv@BETA6 yum.repos.d]# /opt/dell/srvadmin/bin/omreport storage controller
Controller  PERC H710 Mini (Embedded)

Controllers
ID                                            : 0
Status                                        : Ok
Name                                          : PERC H710 Mini
Slot ID                                       : Embedded
State                                         : Ready
Firmware Version                              : 21.2.0-0007
Latest Available Firmware Version             : Not Applicable
Driver Version                                : 00.00.06.15-rh
Minimum Required Driver Version               : Not Applicable
Storport Driver Version                       : Not Applicable
Minimum Required Storport Driver Version      : Not Applicable
Number of Connectors                          : 2
Rebuild Rate                                  : 30%
......




5、防火墙配置
由于我们使用的是SNMP来监控,因此我们需要在被监控端对nagios服务器开启snmp端口udp 161
/sbin/iptables -A INPUT -i em1 -p udp -s 10.10.5.89 --dport 161 -m comment --comment "nagios snmp" -j ACCEPT


OMSA在Windows服务器上安装部署

访问戴尔技术支持的官方网站:http://www.dell.com/support/home/cn/zh/cnbsd1?c=cn&l=zh&s=bsdi,根据sn号查找驱动程序选项栏里统管理标签下下载对应的版本
wKioL1cZ7viC1FfDAACKVdNfT3s401.jpg
装过程参照此贴:http://zh.community.dell.com/tec ... iki/559.omsawindows


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-208566-1-1.html 上篇帖子: nagios常见错误 下篇帖子: linux下安装Nagios-check-mk-agent 服务器 监控 硬件
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表