|
一、Nagios简介
Nagios是一款开源的电脑系统和网络监视工具,能有效监控Windows、Linux和Unix的主机状态,交换机路由器等网络设置,打印机等。在系统或服务状态异常时发出邮件或短信报警第一时间通知网站运维人员,在状态恢复后发出正常的邮件或短信通知。
Nagios原名为NetSaint,由Ethan Galstad开发并维护至今。NAGIOS是一个缩写形式: "Nagios Ain't Gonna Insist On Sainthood" Sainthood 翻译为圣徒,而"Agios"是"saint"的希腊表示方法。Nagios被开发在Linux下使用,但在Unix下也工作得非常好。
主要功能
- 网络服务监控(SMTP、POP3、HTTP、NNTP、ICMP、SNMP、FTP、SSH)
- 主机资源监控(CPU load、disk usage、system logs),也包括Windows主机(使用NSClient++ plugin)
- 可以指定自己编写的Plugin通过网络收集数据来监控任何情况(温度、警告……)
- 可以通过配置Nagios远程执行插件远程执行脚本
- 远程监控支持SSH或SSL加通道方式进行监控
- 简单的plugin设计允许用户很容易的开发自己需要的检查服务,支持很多开发语言(shell scripts、C++、Perl、ruby、Python、PHP、C#等)
- 包含很多图形化数据Plugins(Nagiosgraph、Nagiosgrapher、PNP4Nagios等)
- 可并行服务检查
- 能够定义网络主机的层次,允许逐级检查,就是从父主机开始向下检查
- 当服务或主机出现问题时发出通告,可通过email, pager, sms 或任意用户自定义的plugin进行通知
- 能够自定义事件处理机制重新激活出问题的服务或主机
- 自动日志循环
- 支持冗余监控
- 包括Web界面可以查看当前网络状态,通知,问题历史,日志文件等。
主要特点
- 监视网络服务 (SMTP, POP3, HTTP, NNTP, PING等)
- 监视主机资源 (进程, 磁盘等)
- 简单的插件设计可以轻松扩展Nagios的监视功能
- 服务等监视的并发处理
二、Nagios工作原理
Nagios的功能是监控服务和主机,但是他自身并不包括这部分功能,所有的监控、检测功能都是通过各种插件来完成的。
启动Nagios后,它会周期性的自动调用插件去检测服务器状态,同时Nagios会维持一个队列,所有插件返回来的状态信息都进入队列,Nagios每次都从队首开始读取信息,并进行处理后,把状态结果通过web显示出来。
Nagios提供了许多插件,利用这些插件可以方便的监控很多服务状态。安装完成后,在nagios主目录下的/libexec里放有nagios自带的可以使用的所有插件,如,check_disk是检查磁盘空间的插件,check_load是检查CPU负载的,等等。每一个插件可以通过运行./check_xxx –h 来查看其使用方法和功能。
Nagios可以识别4种状态返回信息,即 0(OK)表示状态正常/绿色、1(WARNING)表示出现警告/黄色、2(CRITICAL)表示出现非常严重的错误/红色、3(UNKNOWN)表示未知错误/深黄色。Nagios根据插件返回来的值,来判断监控对象的状态,并通过web显示出来,以供管理员及时发现故障。
四种监控状态
再说报警功能,如果监控系统发现问题不能报警那就没有意义了,所以报警也是nagios很重要的功能之一。但是,同样的,Nagios 自身也没有报警部分的代码,甚至没有插件,而是交给用户或者其他相关开源项目组去完成的。
Nagios 安装,是指基本平台,也就是Nagios软件包的安装。它是监控体系的框架,也是所有监控的基础。
打开Nagios官方的文档,会发现Nagios基本上没有什么依赖包,只要求系统是Linux或者其他Nagios支持的系统。不过如果你没有安装apache(http服务),那么你就没有那么直观的界面来查看监控信息了,所以apache姑且算是一个前提条件。关于apache的安装,网上有很多,照着安装就是了。安装之后要检查一下是否可以正常工作。
知道Nagios 是如何通过插件来管理服务器对象后,现在开始研究它是如何管理远端服务器对象的。Nagios 系统提供了一个插件NRPE。Nagios 通过周期性的运行它来获得远端服务器的各种状态信息。它们之间的关系如下图所示:
Nagios 通过NRPE 来远端管理服务
1. Nagios 执行安装在它里面的check_nrpe 插件,并告诉check_nrpe 去检测哪些服务。
2. 通过SSL,check_nrpe 连接远端机子上的NRPE daemon
3. NRPE 运行本地的各种插件去检测本地的服务和状态(check_disk,..etc)
4. 最后,NRPE 把检测的结果传给主机端的check_nrpe,check_nrpe 再把结果送到Nagios状态队列中。
5. Nagios 依次读取队列中的信息,再把结果显示出来。
三、Nagios服务端安装
1、 基础支持套件:gcc glibc glibc-common gd gd-devel xinetd openssl-devel
# rpm -q gcc glibc glibc-common gd gd-devel xinetd openssl-devel
如果系统中没有这些套件,使用yum 安装
# yum install -y gcc glibc glibc-common gd gd-devel xinetd openssl openssl-devel
2、查看安装服务器环境(LAMP)
#rpm -qa | grep httpd
#rpm -qa | grep php
如果系统中没有安装,使用yum 安装
3、创建nagios用户和用户组
# useradd -m -s /bin/bash nagios
# groupadd nagios
# usermod -G nagios nagios
创建一个用户组名为nagcmd 用于从Web接口执行外部命令。将nagios用户和apache用户都加到这个组中。因为要用到 CGI 的 Web 监控面板,所以这里我们还要添加一个 nagcmd 组,用于 CGI 执行相关指令。
# groupadd nagcmd
# usermod -G nagcmd nagios
# usermod -a -G nagcmd daemon (因为是yum安装的apache,默认是以daemon用户运行)4、安装目录# cd /usr/local# mkdir nagioschown -R nagios:nagios nagios5、编译安装nagios# cd /home/lost+found# tar -zxvf nagios-4.0.2.tar.gz# cd nagios-4.0.2# ./configure --prefix=/usr/local/nagios --with-command-group=nagcmd编译Nagios程序包源码
# make all
安装二进制运行程序、初始化脚本、配置文件样本并设置运行目录权限
# make install
# make install-init //在/etc/rc.d/init.d安装启动脚本
# make install-commandmode //配置目录权限
# make install-config //安装示例配置文件,安装的路径是/usr/local/nagios/etc
对nagios进行配置
样例配置文件默认安装在这个目录下/usr/local/nagios/etc,这些样例文件可以配置Nagios使之正常运行,只需要做一个简单的修改。
编辑/usr/local/nagios/etc/objects/contacts.cfg配置文件,更改email地址nagiosadmin的联系人定义信息中的EMail信息为你的EMail信息以接收报警内容。
# nano /usr/local/nagios/etc/objects/contacts.cfg
6、编译安装nagios 插件
# cd /home/lost+found
# tar -zxvf nagios-plugins-1.5.tar.gz
# cd nagios-plugins-1.5
# ./configure --with-nagios-user=nagios --with-nagios-group=nagios --prefix=/usr/local/nagios/ //指定安装目录及用户和组
# make && make install
7、配置httpd
生成Nagios的Apache配置文件
# cd nagios-4.0.2
# make install-webconf
/usr/bin/install -c -m 644 sample-config/httpd.conf /etc/httpd/conf.d/nagios.conf
参考/etc/httpd/conf.d/nagios.conf配置内容添加到Apache的httpd.conf配置文件中(/etc/httpd/conf/httpd.conf)。
cat /etc/httpd/conf.d/nagios.conf >> /etc/httpd/conf/httpd.conf
# nano /etc/httpd/conf/httpd.conf
创建一个nagiosadmin的用户用于Nagios的Apache接口登录。记下你所设置的登录口令,一会儿你会用到它。
# /usr/bin/htpasswd -c /usr/local/nagios/etc/htpasswd.users nagiosadmin
密码:nagiosadmin
重启Apache服务以使设置生效。
8、安装NRPE插件
想获取客户机上更为详细的信息,还必须在服务器及客户端上安装NRPE插件。
# cd /home/lost+found/
# tar -zxvf nrpe-2.15.tar.gz
# cd nrpe-2.15
# ./configure --with-nagios-user=nagios --with-nagios-group=nagios --prefix=/usr/local/nagios/
# make all
# make install-plugin
# make install-daemon-config
# make install-daemon
# ls /usr/local/nagios/libexec/
check_apt check_ftp check_mailq check_overcr check_tcp .......
验证Nagios的样例配置文件
# /usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg
如果没有报错,可以启动Nagios服务。
9、启动httpd及nagios服务并验证
#chkconfig --add nagios //设置nagios及http开机自启动
#chkconfig --level 35 nagios on
#chkconfig --list#chkconfig httpd on#service nagios start#service httpd start
四、Nagios客户端安装
rpm -q gcc openssl openssl-devel
yum -y install gcc openssl openssl-devel
在客户端就是要安装nagios 插件 和 nrpe插件
# cd /usr/local/
# mkdir nagios
# useradd -s /sbin/nologin nagios
1、安装
nagios-plugins-1.5
# cd nagios-plugins-1.5
# ./configure --prefix=/usr/local/nagios
# make
# make install
# cd /usr/local
# chown -R nagios.nagios nagios
2、安装nrpe插件
# cd nrpe-2.15
# ./configure --prefix=/usr/local/nagios/
# make all
# make install-plugin 安装check_nrpe这个插件
# make install-daemon-config 安装配置文件
# make install-daemon 安装daemon3、修改客户端配置文件
# nano /usr/local/nagios/etc/nrpe.cfg
server_port:5666
allowed_hosts=127.0.0.1,192.168.0.36 //添加服务器端的IP地址
指定nagios监控主机ip,多个ip用逗号分隔,后面的IP地址,是nagios服务端的ip地址,也就是说只允许指定的ip通过nrpe开的端口5666取得本机的信息。
然后修改nrpe.cfg中的command部分。
启动NRPE守护进程:(可以将此命令加入/etc/rc.local,以便开机自动启动)
#/usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d
可以将此命令加入/etc/rc.local,以便开机自动启动
echo "/usr/local/nagios/bin/nrpe -c /usr/local/nagios/etc/nrpe.cfg -d" >> /etc/rc.local
#netstat -utpln |grep nrpe //查看nrpe进程是否已正常启动
#/usr/local/nagios/libexec/check_nrpe -H 127.0.0.1
NRPE v2.15 //nrpe测试结果,此结果为nrpe已经正常工作了
然后在nagios监控服务器上测试
#/usr/local/nagios/libexec/check_nrpe -H 192.168.0.31 //被监控主机ip
返回信息被监控服务器上安装的NRPE版本:NRPE v2.15五、定义监控内容# nano /usr/local/nagios/etc/nrpe.cfg //定义监控服务器内容
command[check_users]=/usr/local/nagios/libexec/check_users -w 5 -c 10 #监控登陆的用户数量
command[check_load]=/usr/local/nagios/libexec/check_load -w 15,10,5 -c 30,25,20 #监控CPU的负载
command[check_sda2]=/usr/local/nagios/libexec/check_disk -w 20% -c 10% -p /dev/sda2 #监控磁盘利用率,这里的sda2必须是实际的硬盘分区,可使用fdisk –l查
command[check_swap]=/usr/local/nagios//libexec/check_swap -w 20 -c 10 #监控交换空间
command[check_zombie_procs]=/usr/local/nagios/libexec/check_procs -w 5 -c 10 -s Z #监控进程中的僵尸进程
command[check_total_procs]=/usr/local/nagios/libexec/check_procs -w 150 -c 200 #监控所有进程
注意:command后面括号中的内容就是定义的变量,变量名可以任意指定,只需和服务器配置文件中的一致即可
参考自:
http://windows9834.blog.163.com/blog/static/2734500420140163496392/
http://www.cnblogs.com/mchina/archive/2013/02/20/2883404.html
http://os.iyunv.com/art/201103/250152.htm
|
|
|