二、Nagios工作原理
Nagios的功能是监控服务和主机,但是他自身并不包括这部分功能,所有的监控、检测功能都是通过各种插件来完成的。
启动Nagios后,它会周期性的自动调用插件去检测服务器状态,同时Nagios会维持一个队列,所有插件返回来的状态信息都进入队列,Nagios每次都从队首开始读取信息,并进行处理后,把状态结果通过web显示出来。
Nagios提供了许多插件,利用这些插件可以方便的监控很多服务状态。安装完成后,在nagios主目录下的/libexec里放有nagios自带的可以使用的所有插件,如,check_disk是检查磁盘空间的插件,check_load是检查CPU负载的,等等。每一个插件可以通过运行./check_xxx –h 来查看其使用方法和功能。
Nagios可以识别4种状态返回信息,即 0(OK)表示状态正常/绿色、1(WARNING)表示出现警告/黄色、2(CRITICAL)表示出现非常严重的错误/红色、3(UNKNOWN)表示未知错误/深黄色。Nagios根据插件返回来的值,来判断监控对象的状态,并通过web显示出来,以供管理员及时发现故障。
四种监控状态
再说报警功能,如果监控系统发现问题不能报警那就没有意义了,所以报警也是nagios很重要的功能之一。但是,同样的,Nagios 自身也没有报警部分的代码,甚至没有插件,而是交给用户或者其他相关开源项目组去完成的。
Nagios 安装,是指基本平台,也就是Nagios软件包的安装。它是监控体系的框架,也是所有监控的基础。
打开Nagios官方的文档,会发现Nagios基本上没有什么依赖包,只要求系统是Linux或者其他Nagios支持的系统。不过如果你没有安装apache(http服务),那么你就没有那么直观的界面来查看监控信息了,所以apache姑且算是一个前提条件。关于apache的安装,网上有很多,照着安装就是了。安装之后要检查一下是否可以正常工作。
知道Nagios 是如何通过插件来管理服务器对象后,现在开始研究它是如何管理远端服务器对象的。Nagios 系统提供了一个插件NRPE。Nagios 通过周期性的运行它来获得远端服务器的各种状态信息。它们之间的关系如下图所示:
Nagios 通过NRPE 来远端管理服务
1. Nagios 执行安装在它里面的check_nrpe 插件,并告诉check_nrpe 去检测哪些服务。
2. 通过SSL,check_nrpe 连接远端机子上的NRPE daemon
3. NRPE 运行本地的各种插件去检测本地的服务和状态(check_disk,..etc)
4. 最后,NRPE 把检测的结果传给主机端的check_nrpe,check_nrpe 再把结果送到Nagios状态队列中。
5. Nagios 依次读取队列中的信息,再把结果显示出来。
三、Nagios服务端安装
1、 基础支持套件:gcc glibc glibc-common gd gd-devel xinetd openssl-devel
# rpm -q gcc glibc glibc-common gd gd-devel xinetd openssl-devel
如果系统中没有这些套件,使用yum 安装
# yum install -y gcc glibc glibc-common gd gd-devel xinetd openssl-devel
2、查看安装服务器环境(LAMP)
#rpm -qa | grep httpd#rpm -qa | grep php如果系统中没有安装,使用yum 安装3、创建nagios用户和用户组# useradd -m -s /bin/bash nagios# groupadd nagios# usermod -G nagios nagios创建一个用户组名为nagcmd 用于从Web接口执行外部命令。将nagios用户和apache用户都加到这个组中。因为要用到 CGI 的 Web 监控面板,所以这里我们还要添加一个 nagcmd 组,用于 CGI 执行相关指令。# groupadd nagcmd# usermod -G nagcmd nagios# usermod -a -G nagcmd daemon (因为是yum安装的apache,默认是以daemon用户运行)4、安装目录# cd /usr/local# mkdir nagioschown -R nagios:nagios nagios5、编译安装nagios# cd /home/lost+found# tar -zxvf nagios-4.0.2.tar.gz# cd nagios-4.0.2# ./configure --prefix=/usr/local/nagios --with-command-group=nagcmd编译Nagios程序包源码
# make all
安装二进制运行程序、初始化脚本、配置文件样本并设置运行目录权限
# make install
# make install-init //在/etc/rc.d/init.d安装启动脚本
# make install-commandmode //配置目录权限
# make install-config //安装示例配置文件,安装的路径是/usr/local/nagios/etc
对nagios进行配置
样例配置文件默认安装在这个目录下/usr/local/nagios/etc,这些样例文件可以配置Nagios使之正常运行,只需要做一个简单的修改。
编辑/usr/local/nagios/etc/objects/contacts.cfg配置文件,更改email地址nagiosadmin的联系人定义信息中的EMail信息为你的EMail信息以接收报警内容。
# nano /usr/local/nagios/etc/objects/contacts.cfg
6、编译安装nagios 插件
# cd /home/lost+found
# tar -zxvf nagios-plugins-1.5.tar.gz
# cd nagios-plugins-1.5
# ./configure --with-nagios-user=nagios --with-nagios-group=nagios --prefix=/usr/local/nagios/ //指定安装目录及用户和组
# make && make install
7、配置httpd
生成Nagios的Apache配置文件# cd nagios-4.0.2# make install-webconf /usr/bin/install -c -m 644 sample-config/httpd.conf /etc/httpd/conf.d/nagios.conf# cd sample-config参考sample-config/httpd.conf配置内容添加到Apache的httpd.conf配置文件中(/etc/httpd/conf/httpd.conf)。# nano /etc/httpd/conf/httpd.conf创建一个nagiosadmin的用户用于Nagios的Apache接口登录。记下你所设置的登录口令,一会儿你会用到它。# /usr/bin/htpasswd -c /usr/local/nagios/etc/htpasswd.users nagiosadmin密码:nagiosadmin重启Apache服务以使设置生效。8、安装NRPE插件想获取客户机上更为详细的信息,还必须在服务器及客户端上安装NRPE插件。# cd /home/lost+found/# tar -zxvf nrpe-2.15.tar.gz# cd nrpe-2.15# ./configure --with-nagios-user=nagios --with-nagios-group=nagios --prefix=/usr/local/nagios/# make all# make install-plugin# make install-daemon-config# make install-daemon# ls /usr/local/nagios/libexec/ check_apt check_ftp check_mailq check_overcr check_tcp .......验证Nagios的样例配置文件# /usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg如果没有报错,可以启动Nagios服务。9、启动httpd及nagios服务并验证#chkconfig --add nagios //设置nagios及http开机自启动#chkconfig --level 35 nagios on#chkconfig --list#chkconfig httpd on#service nagios start#service httpd start四、Nagios客户端安装
在客户端就是要安装nagios 插件 和 nrpe插件
# cd /usr/local/
# mkdir nagios
# useradd -s /sbin/nologin nagios
1、安装 nagios-plugins-1.5
# cd nagios-plugins-1.5# ./configure --prefix=/usr/local/nagios# make# make install# chown nagios.nagios /usr/local/nagios/# chown -R nagios.nagios /usr/local/nagios/libexec/2、安装nrpe插件# cd nrpe-2.15# ./configure --prefix=/usr/local/nagios/ # make all# make install-plugin 安装check_nrpe这个插件# make install-daemon-config 安装配置文件# make install-daemon 安装daemon3、修改客户端配置文件# nano /usr/local/nagios/etc/nrpe.cfgserver_port:5666allowed_hosts=127.0.0.1,192.168.0.36 //添加服务器端的IP地址指定nagios监控主机ip,多个ip用逗号分隔,后面的IP地址,是nagios服务端的ip地址,也就是说只允许指定的ip通过nrpe开的端口5666取得本机的信息。然后修改nrpe.cfg中的command部分。启动NRPE守护进程:(可以将此命令加入/etc/rc.local,以便开机自动启动)#/usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d可以将此命令加入/etc/rc.local,以便开机自动启动echo "/usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d" >> /etc/rc.local#netstat -utpln |grep nrpe //查看nrpe进程是否已正常启动#/usr/local/nagios/libexec/check_nrpe -H 127.0.0.1 NRPE v2.15 //nrpe测试结果,此结果为nrpe已经正常工作了然后在nagios监控服务器上测试#/usr/local/nagios/libexec/check_nrpe -H 192.168.0.31 //被监控主机ip返回信息被监控服务器上安装的NRPE版本:NRPE v2.15五、定义监控内容# nano /usr/local/nagios/etc/nrpe.cfg //定义监控服务器内容 command[check_users]=/usr/local/nagios/libexec/check_users -w 5 -c 10 #监控登陆的用户数量 command[check_load]=/usr/local/nagios/libexec/check_load -w 15,10,5 -c 30,25,20 #监控CPU的负载 command[check_sda2]=/usr/local/nagios/libexec/check_disk -w 20% -c 10% -p /dev/sda2 #监控磁盘利用率,这里的sda2必须是实际的硬盘分区,可使用fdisk –l查 command[check_swap]=/usr/local/nagios//libexec/check_swap -w 20 -c 10 #监控交换空间 command[check_zombie_procs]=/usr/local/nagios/libexec/check_procs -w 5 -c 10 -s Z #监控进程中的僵尸进程 command[check_total_procs]=/usr/local/nagios/libexec/check_procs -w 150 -c 200 #监控所有进程 注意:command后面括号中的内容就是定义的变量,变量名可以任意指定,只需和服务器配置文件中的一致即可
参考自:http://windows9834.blog.163.com/ ... t/201103/250152.htm