第二十九天：监控软件之 nagios

zhendeaini123 · 发表于 2019-1-13 09:58:02

　　小Q：有一种孤独，心里真正的画的是一串又一串的省略号；而在外人面前时时为这事标
　　上句号，其实挺好的，成熟，只是要付出代价；
　　

　　总结了最近的状况，学的时间更长了，却进度慢了，但学到的多了也更深了；每天控制不住的向了解得更多，即使一直在克制自己，现在不用学太深不用学太深，适当就好。但是这节是有点多了。

　　=====================================================================================================
一：简介
二：安装
1.服务端安装
2.nagios目录下简介
3.检测启动
三：添加客户端服务监控
1.服务端安装
2.host文件配置详解
3.添加需要监测的服务简介
4.检测启动
四：配置告警文件
1.配置联系人文件
2.配置监控客户端的文件
五：配置短信告警
1.编写脚本
2.添加到控制commands文件
3.告警配置完也要重启nagios
六：配置图形显示--pnp4nagios
1.修改主配置文件
2.修改控制commands文件
3.修改模块templates文件
4.修改监控客户端的文件
5.检测重启访问测试　　一：简介

　　是一个开源软件，可以监控系统运行状态和网络信息Linux/windows主机状态，甚至可以监控打印机，
　　而且有自己的存储数据库；
　　可以运行在Linux上或windows上同时提供浏览器的web界面方便运维人员查看监控项目的状态及日志等
　　支持自定义脚本实现监控
　　支持通过手机查看系统监控信息
　　支持方便地扩展自己服务的检测方法
　　支持web界面配置管理·邮件·短信通知
　　Nagios官网 http://www.nagios.org

　　运行条件：Linux:平台，php:解析，gcc:编译c，Apache:web服务(nginx不支持yum安装)

　　关于cacti·nagios·zabbix安装方式：

　　yum在线安装：极力推荐，简单快捷，不易出错；版本低，不能自己制定；
　　rpm包安装：会依赖几十个包，极易出错，想体验一下依赖包的可以试验一下；
　　源码包安装：可以实现自定义功能，版本可选；编译时间长，配置稍麻烦；
　　二：安装服务端 192.168.0.11
　　1.服务端安装

　　Centos6默认的yum源里没有nagios相关的rpm包，我们可以网上找一个epel的扩展源安装：

　　rpm -ivh http://www.aminglinux.com/bbs/data/attachment/forum/month_1211/e
　　pel-release-6-7.noarch.rpm

　　然后安装nagios相关的包
　　yum install -y httpd nagios nagios-plugins nagios-plugins-all nrpe nagios-plugins-nrpe
　　设置登录nagios后台的用户和密码：htpasswd -c /etc/nagios/passwd nagiosadmin
　　vim /etc/nagios/nagios.cfg
　　nagios -v /etc/nagios/nagios.cfg 检测配置文件
　　启动服务：service httpd start; service nagios start
　　浏览器访问： http://ip/nagios
　　2.nagios目录下简介

　　三：添加客户端服务监控客户端  192.168.0.12
　　1.配置客户端

　　在客户端机器上

　　rpm -ivh http://www.aminglinux.com/bbs/data/attachment/forum/month_1211/epel-release-6-7.noarch.rpm
　　yum install -y  nagios-plugins nagios-plugins-all nrpe nagios-plugins-nrpe
　　nrpe是nagios一个扩展，用于被监控的服务器，为监控平台提供本地的情况；

　　yum install -y httpd
　　vim /etc/nagios/nrpe.cfg

　　找到“allowed_hosts=127.0.0.1” 改为 “allowed_hosts=127.0.0.1,192.168.0.11”
　　                                                 后面的ip为服务端ip;

　　找到”dont_blame_nrpe=0”改为 “dont_blame_nrpe=1”    1表示可以传递函数；
　　启动客户端 /etc/init.d/nrpe  start

　　          /etc/init.d/httpd  start
　　2.host配置文件详解

　　进入服务端配置文件：cd /etc/nagios/conf.d/

vim 192.168.0.12.cfg                #加入：
define host{
      use                linux-server
      host_name          192.168.0.12          #监控的IP
      alias                0.12
      address             192.168.0.12
      }
define service{
      use                   generic-service
      host_name             192.168.0.12
      service_description    check_ping       #监控ping服务
      check_command          check_ping!100.0,20%!200.0,50%
                                 #检查丢包率，0%是ok，20%waring，50%是critical
      max_check_attempts  5                      #每一分钟ping一次
      normal_check_interval  1
}
define service{
      use                   generic-service
      host_name             192.168.0.12
      service_description    check_ssh
      check_command          check_ssh
      contact_groups       3106       #定义出现问题邮件短信联系的组
      max_check_attempts    5          #当nagios检测到问题时，一共尝试检测5
                                          #次都有问题才会告警，如果该数值为1，
                                          #那么检测到1次问题就立即告警
      normal_check_interval 1          #重新检测间隔，单位是分钟，默认3分钟
      notification_interval 60       #在服务出现异常后，故障一直没有解决，
                                          #再次对使用者发出通知的时间。单位分
                                          #钟如果你认为，所有的事件只需要一次通
                                          #知就够了，可以把这里的选项设为0
      notifications_enabled 1          #是否开启提醒功能。1为开启，0为禁用
                                          #一般，选项会在主配置文件nagios.cfg
                                          #中定义，效果相同。
      notification_period 24x7       #发送提醒的时间段。非常重要的主机，
                                          #我定义为7×24，一般的主机（服务）
                                          #就定义为上班时间。如果不在定义的
                                          #时间段内，无论什么问题发生，都不会
                                          #发送提醒。
   notification_options:w,u,c,r       #这个是service的状态。w为waning， u
                                          #为unknown, c为critical严重, r为
                                       # recover恢复了，类似的还有一个host
                                          #对应的状态d,u,r d = 状态为DOWN,
                                          # u = 状态为UNREACHABLE , r = 状态恢复
                                          # 为OK，需要加入到host的定义配置里。
}
define service{
      use                   generic-service
      host_name             192.168.0.12
      service_description    check_http
      check_command          check_http
      max_check_attempts    5
      normal_check_interval 1
      contact_name          teng #出问题联系teng，联系方式是下面有介绍
      max_check_attempts    5
      normal_check_interval 1
      notification_period    8：00-18：00x7
      notification_options:w,c,r
      notifications_enabled 1
}　　检测：nagios -v /etc/nagios/nagios.cfg

　　重启：service httpd restart ; service  nagios restart
　　以上服务不依赖于客户端nrpe服务，我们可以想象，我们在自己电脑上可以使用ping或者telnet探测远程任何一台机器是否存活、是否开启某个端口或服务。而当我们想要检测客户端上的某个具体服务的情况时，就需要借助于nrpe了，比如想知道客户端机器的负责或磁盘使用情况。

　　3.添加不能自动检测的服务

　　以上是本不需要添加的监控服务对象，举例添加需要配置的监控服务

　　服务端vim /etc/nagios/objects/commands.cfg
增加：define command{
   command_name check_nrpe          #自定义的与客户端通信的名字
command_line $USER1$/check_nrpe -H $HOSTADDRESS$ -c $ARG1$
                                          #通过这条命令获得客户机状态
      }　　继续编辑 vim  /etc/nagios/conf.d/192.168.0.12.cfg #增加如下内容：
define service{
      use                   generic-service
      host_name             192.168.0.12
      service_description    check_load
      check_command          check_nrpe!check_load
      max_check_attempts  5
      normal_check_interval  1
}
define service{
      use                   generic-service
      host_name             192.168.0.12
      service_description    check_disk_hda1
      check_command          check_nrpe!check_hda1
      max_check_attempts  5
      normal_check_interval  1
}
define service{
      use                   generic-service
      host_name             192.168.0.12
      service_description    check_disk_hda2
      check_command          check_nrpe!check_hda2
      max_check_attempts  5
      normal_check_interval  1
}　　check_nrpe!check_load ：这里的check_nrpe就是在commands.cfg刚刚定义的，check_load是远程主机上的一个检测脚本在远程主机上vim /etc/nagios/nrpe.cfg 搜索check_load，这几行就是在服务端上要执行的脚本了，我们可以手动执行这个脚本，即

　　

　　我们也可以加一行command[check_sda1]=/usr/lib/nagios/plugins/check_disk -w 20% -c 10% -p /dev/sda1 -w=超过20% warning -c=超10%critical严重的

　　或者把check_hda1更改一下：/dev/hda1 改为 /dev/sda1，只要服务端的check_command与客户端对应即可；就是说我们可以在客户端自定义想要检测的服务脚本，然后添加在服务端；

　　4.检测启动

　　检测：nagios -v /etc/nagios/nagios.cfg
　　客户端上重启一下nrpe服务: service nrpe restart
　　服务端也重启一下nagios服务: service nagios restart
　　查看日志：tail  /var/log/nagios/nagios.log

　　

　　四：配置告警文件

　　1.配置联系人文件

　　vim /etc/nagios/objects/contacts.cfg 增加如下：
define contact{
      contact_name    teng                #联系人名字
      use             generic-contact    #联系人属性
      alias          teng                #别名
      email          1234567@139.com    #发送邮件地址
  }
define contact{
      contact_name          456
      use                   generic-contact
      alias                aaa
      email                3435435@139.com
      pager                13931900000，13838143434
                        #短信通知，下面会有详解，只单独这样配置是没用的
}
define contactgroup{
      contactgroup_name    common          # 群组名字
      alias                common
      members                teng，456       #发警告给这两个人
}　　保存退出；

　　2.配置监控客户端的文件

　　将联系人或联系人组添加到监控客户端服务文件中(/etc/nagios/conf.d/192.168.0.12.cfg)的define service模块内；       我们对上面的ssh和http服务已经设置了邮件提醒，可以去上面参考；

　　其实我们还可以对任何服务进行配置，参考上面模块即可；
　　检测：nagios -v /etc/nagios/nagios.cfg

　　重启：service nagios restart
　　

　　

　　

　　

　　

　　五：配置短信告警
　　正常情况下,没有任何服务器能向手机发送短消息的,要到达这个目的,得花钱购买短信服务，当你付费成功后，短信服务商会给你提供入口及加密关键字；然后我们自己写个脚本就可以发送短信。

　　首先在上面联系人文件的模块中添加短信提醒方式：pager  手机号

　　1.编写脚本文件

　　编写一个短信接口的脚本，可以用shell·perl·python等语言写，网上也有很多，可以调用一下，我是还没有学到，所以copy了一份perl的；
　　vi /root/duanxin.sh
#!/usr/bin/perl -w
use strict;
use LWP::Simple;
use URI::Escape;
use Digest::MD5;
my ($mobile, $content) = @ARGV;
my $log_control = 1;
my $key = 'Ysdbyhd6T';             #短信服务商给的验证关键字
my $souce_content = substr($mobile, 0, 8) . substr($mobile, -10, 10) . $key;
my $md5 = Digest::MD5->new;
$md5->add($souce_content);
my $result_conent = uc($md5->hexdigest);
my $url = "http://http.asp.sh.cn/MT.do?Username=sery&Password=
([-BVG'0&Mobile=$mobile&Content=$content&Keyword=$result_conent";
   #短信服务商给的用户名、密码以及短信服务商的访问接口(url)全包括在这里了
my $result = get $url;
if($log_control) {
my $fh;
open($fh, '>> /var/log/sms.log') or die "can't open log: $!";
print $fh join(' ', time, $result, "\n");
close $fh;
}　　来自一个叫田逸老师的博客

　　更改权限：chmod a+x /root/duanxin.sh

　　验证：bash  /root/duanxin.sh 13800138000  "It is a test" ,

　　回车后数秒钟，这个手机应该能收到带有“It is a test”的短信；为保证短信的可靠性，
　　我做了一个策略：每天下午6点定时给我发一个通知短信，成功就可以放心了；

　　crontab –e    //文件中添加
　　00 18 * * *    /bin/bash  /root/duanxin.sh  13800138000  "It is Ok” 。
　　2.添加到配置文件中

　　修改commands.cfg配置文件vim /etc/nagios/objects/commands.cfg

　　这个文件已经包含了发送邮件报警的部分，因此只需要再把短信报警的部分加上就可以了
# 'notify-host-by-sms' command definition
define command{
      command_name host-notify-by-sms
      command_line /root/duanxin.sh  $CONTACTPAGER$ "*** $NOTIFICATIONTYPE$ Host Alert: $HOSTNAME$ IP: $HOSTADDRESS$ is $HOSTSTATE$ ***"
}
# 'notify-service-by-sms' command definition
define command{
      command_name service-notify-by-sms
      command_line /root/duanxin.sh  $CONTACTPAGER$ "*** $NOTIFICATIONTYPE$ Service Alert: $HOSTNAME$ IP: $HOSTADDRESS$ / $SERVICEDESC$ is $SERVICESTATE$ ***"
}　　第一个块定义主机报警的内容，即主机发生死机、恢复等情况发送手机短信报警；第二个块定义服务报警内容，Nagios规定，如果探测到被监控的主机停机或不可达，它就不再探测这个停机主机上的服务；

　　其接受者和发送内容由"***...***"内"$..$"定义的宏来决定；
　　另外一个需要注意的地方是命令行（command_line）路径一定要用全路径，这里调用的命令就是我们在全面编写的那个脚本duanxin.sh；

　　检测：nagios -v /etc/nagios/nagios.cfg

重启：service nagios restart
　　

　　六：配置图形显示--pnp4nagios

　　我们用的nagios命令简单，但只能输出单调的几种结果，没有绚丽的类似cacti的图形界面；为了解决这个问题，我们可以用PNP插件来实现nagios监控的图形显示。

　　安装：yum install pnp4nagios rrdtool

　　1.修改主配置文件

　　vim /etc/nagios/nagios.cfg          //修改如下配置
process_performance_data=1
host_perfdata_command=process-host-perfdata
service_perfdata_command=process-service-perfdata
enable_environment_macros=1　　2.修改控制commands文件

　　修改commands.cfg

　　vim /etc/nagios/objects/commands.cfg
   //注释掉原有对process-host-perfdata和process-service-perfdata，重新定义
define command {
   command_name process-service-perfdata
   command_line /usr/bin/perl  /usr/libexec/pnp4nagios/process_perfdata.pl
}
  define command {
   command_name process-host-perfdata
   command_line /usr/bin/perl  /usr/libexec/pnp4nagios/process_perfdata.pl -d HOSTPERFDATA
}　　3.修改模块templates文件

　　vim  /etc/nagios/objects/templates.cfg

define host {
      name    hosts-pnp
      register 0
      action_url /pnp4nagios/index.php/graph?host=$HOSTNAME$&srv=_HOST_ process_perf_data             1
}
define service {
      name    srv-pnp
      register 0
      action_url /pnp4nagios/index.php/graph?host=$HOSTNAME$&srv=$SERVICEDESC$ process_perf_data             1
}　　
　　？？？？？？？？？？？？？？？
　　4.修改监控客户配置

　　vim /etc/nagios/conf.d/192.168.0.12.cfg 修改对应的service，比如把
define service{
      use    generic-service
      host_name    192.168.0.12
      service_description    check_disk_hda1
      check_command          check_nrpe!check_hda1
      max_check_attempts 5
      normal_check_interval 1
}
改为：
define service{
      use    generic-service,srv-pnp
      host_name    192.168.0.12
      service_description    check_disk_hda1
      check_command          check_nrpe!check_hda1
      max_check_attempts 5
      normal_check_interval 1
}　　重启服务：

　　service nagios restart
　　service httpd restart
　　service npcd start
　　5.浏览器测试

　　ip/nagios/

　　ip/pnp4nagios/
　　好文章：http://www.cnblogs.com/mchina/archive/2013/02/20/2883404.html

　　

　　

　　

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

第二十九天：监控软件之 nagios

浏览过的版块

扫码加入运维网微信交流群

第 二 十 九 天 ：监 控 软 件 之 nagios

浏览过的版块

第二十九天：监控软件之 nagios