设为首页 收藏本站
查看: 1188|回复: 0

[经验分享] zabbix结合shell实现自动发现占用内存最大top10进程并监控其资源

[复制链接]

尚未签到

发表于 2019-1-25 08:27:37 | 显示全部楼层 |阅读模式
  最近发现服务器cpu、内存莫名的增高,可能还有一些是没用的进程,却占用着相当大的资源。直接ssh到服务器上看信息也不方便,所以就想着在zabbix监控端实现对这五花八门进程资源占用监控。
  为了解决这个问题,最近在想通过zabbix的自动发现功能能不能实现自动发现占用服务器内存最大的N个进程,然后对这些进程占用内存和CPU的资源情况进行监控获取数据呢?于是就有了本篇文章的诞生。
  首先,我们需要获取到top命令结果,可以使用下面的命令将top命令获取的结果重定向到一个文件中去:
top -b -n 1 >/tmp/top.txt  其中该命令的意思是执行一次top命令并将结果重定向到top.txt文件中去
  将该命令添加到zabbix用户的计划任务中去,每分钟执行一次,命令如下:
crontab -e  
*/1 * * * * top -b -n 1 >/tmp/top.txt
  放进去之后在tmp目录下会生成一个top.txt文件
[root@bogon ~]# head -10 /tmp/top.txt  
top - 14:26:01 up 5 days,  5:16,  2 users,  load average: 0.09, 0.04, 0.07
  
Tasks: 146 total,   3 running, 143 sleeping,   0 stopped,   0 zombie
  
%Cpu(s):  0.4 us,  0.3 sy,  0.0 ni, 99.3 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
  
KiB Mem :  8011216 total,   184064 free,  7464604 used,   362548 buff/cache
  
KiB Swap:  8257532 total,  2165112 free,  6092420 used.   299632 avail Mem
  

  
  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
  
6566 root      20   0 6089568 1.585g   3716 S   6.2 20.8  22:15.21 java
  
19307 root      20   0  146016   1900   1376 R   6.2  0.0   0:00.01 top
  
    1 root      20   0   44704   4968   2372 S   0.0  0.1   0:30.15 systemd
  好了,获取到了数据后,就需要对数据进行处理了,下面是两个脚本,一个是为了获取占用内存资源最高的进程名,另一个是获取某进程占用内存和cpu资源的信息。先来看第一个脚本:
[root@bogon ~]# cat /home/scripts/check_process.sh  
#!/bin/bash
  
TABLESPACE=`tail -n +8 /tmp/top.txt|awk '{a[$NF]+=$6}END{for(k in a)print a[k]/1024,k}'|sort -gr|head -10|cut -d" " -f2`
  
COUNT=`echo "$TABLESPACE" |wc -l`
  
INDEX=0
  
echo '{"data":['
  
echo "$TABLESPACE" | while read LINE; do
  
    echo -n '{"{#TABLENAME}":"'$LINE'"}'
  
    INDEX=`expr $INDEX + 1`
  
    if [ $INDEX -lt $COUNT ]; then
  
        echo ','
  
    fi
  
done
  
echo ']}'
  其中最关键的是`tail -n +8 /tmp/top.txt|awk '{a[$NF]+=$6}END{for(k in
a)printa[k]/1024,k}'|sort -gr|head -10|cut -d" "
-f2`这条命令:这条命令的意思是从top.txt文件中取出从第八行到末尾行的数据,然后使用awk对这些数据进行累加,效果是以最后一列为关键字,每个关键字对应的第6列的数值进行累加,输出第六列数据的累加结果和最后一列数据,然后使用sort进行排序,注意这里的参数是使用-gr而不是使用-nr是因为获取到的第六列的值是以KB为单位的,假如某进程占用内存大于10G的话,将会使用科学记数法计数,sort-nr参数无法对科学记数法进行计数,需要将参数改成-gr才行,其中的-r是进行反向排序,同时为了防止zabbix获取到该值是科学记数法获取的值从而无法识别,先将该值/1024将单位变成MB,当zabbix获取到数据后再*1024*1024将该值还原成BYTE单位。head-10是取出占用内存最大的十个进程,然后使用cut对数据进行切分,获得十个进程的进程名。至于下面的代码是将获取到的十个进程名进行json格式化的输出,输出结果如下:
$ sh ./scripts/check_process.sh  
{"data":[
  
{"{#TABLENAME}":"java"},
  
{"{#TABLENAME}":"docker"},
  
{"{#TABLENAME}":"nginx"},
  
{"{#TABLENAME}":"sshd"},
  
{"{#TABLENAME}":"tuned"},
  
{"{#TABLENAME}":"NetworkMa+"},
  
{"{#TABLENAME}":"zabbix_ag+"},
  
{"{#TABLENAME}":"systemd-j+"},
  
{"{#TABLENAME}":"crond"},
  
{"{#TABLENAME}":"rsyslogd"}]}
  至于为啥要进行json格式化前面博客已经阐述过了,因为zabbix自动发现获取的值格式就是json格式化的值才能被识别到。
  第二个脚本的作用就是获取某个进程占用的cpu和内存资源情况,脚本内容如下:
[root@bogon ~]# cat /home/scripts/processmonitor.sh  
#!/bin/bash
  
process=$1
  
name=$2
  
case $2 in
  
mem)
  
echo "`tail -n +8 /tmp/top.txt|awk '{a[$NF]+=$6}END{for(k in a)print a[k]/1024,k}'|grep "$process"|cut -d" " -f1`"
  
;;
  
cpu)
  
echo "`tail -n +8 /tmp/top.txt|awk '{a[$NF]+=$9}END{for(k in a)print a[k],k}'|grep "$process"|cut -d" " -f1`"
  
;;
  
*)
  
echo "Error input:"
  
;;
  
esac
  
exit 0
  该脚本的核心和上一个脚本的很相似,相信读者理解了上面的脚本在理解下面的脚本也是轻轻松松的啦。下面看该脚本执行的结果:
$ sh ./scripts/processmonitor.sh java mem  
13115.5
  
$ sh ./scripts/processmonitor.sh java cpu
  
17.7
  能获取到值了之后就需要在zabbix_agentd.conf里面配置相应的键值来获取数据了,下面是需要添加的配置:
$ tail -3 ./etc/zabbix_agentd.conf  
#top_process
  
UserParameter=process.discovery,/home/scripts/check_process.sh
  
UserParameter=process.resource
  • ,/home/scripts/processmonitor.sh $1 $2
      添加该配置之后需要重启zabbix_agentd才能使配置生效,重启需要使用pkill zabbix && zabbix-3.0.5/sbin/zabbix_agentd
      好了,这样,客户端这边就已经配置成功了,下面需要在服务端验证是否能够获取到数据了,在服务端使用zabbix_get命令来获取数据,下面是执行的结果:
    $ zabbix/bin/zabbix_get -s xxx.xxx.xxx.xxx -k"process.discovery"  
    {"data":[
      
    {"{#TABLENAME}":"java"},
      
    {"{#TABLENAME}":"docker"},
      
    {"{#TABLENAME}":"nginx"},
      
    {"{#TABLENAME}":"sshd"},
      
    {"{#TABLENAME}":"tuned"},
      
    {"{#TABLENAME}":"NetworkMa+"},
      
    {"{#TABLENAME}":"zabbix_ag+"},
      
    {"{#TABLENAME}":"systemd-j+"},
      
    {"{#TABLENAME}":"rsyslogd"},
      
    {"{#TABLENAME}":"bash"}]}
      上面的xxx.xxx.xxx.xxx代表的是客户端的IP地址,-k后面的参数就是刚刚我们在客户端上面添加的参数。
    $ zabbix/bin/zabbix_get -s xxx.xxx.xxx.xxx -k"process.resource[java,mem]"  
    13115.6
      
    $ zabbix/bin/zabbix_get -s xxx.xxx.xxx.xxx -k"process.resource[java,cpu]"
      
    0
      好了,在服务端测试客户端没有问题,能够获取到数据了。接下来就需要在web端配置模板了。
      在组态---》模板---》创建模板里面创建一个模板,叫做temple top_process如下图所示:

      创建一个应用集叫做top of process resource,如下图所示:

      创建好后,需要添加探索规则了,这是我们的重头戏。新建探索规则,如下图所示:

      其中的键值就是我们在客户端上面配置的键值,数据更新间隔我这里设置为5分钟,就是说每间隔5分钟它就会去客户端获取占用内存最大的十个进程,然后取它们的内存和cpu占用资源数据。下面就需要配置项目原型了,如下图所示:

      如上图所示,{#TABLENAME}获取的就是十个进程名的列表,process.resource[{#TABLENAME},mem]就是我们在客户端配置的键值,其中获取的内存数值单位是MB,这里将它转换成BYTE单位,所以将获取到的数值*1024*1024=1048576,单位改成Byte,将该项目应用到topof process resourceying应用集上。这样,一个项目原型就做成功了。下面是cpu占用资源的项目原型配置:

      添加完项目原型后需要配置图形原型,如下图所示:

      添加好图形原形后,改模版就制作成功了,接下来将该模板添加到主机上,就能够获取到数据了,这里因为我设置的自动发现时间间隔是5分钟,所以需要等待五分钟以上才会出现图形,下面是出现的图形效果。

      这就是获取到的十个占用内存最大的进程的占用资源图形,下面是详细效果。

      这是刚获取到的数据,至此,通过自动发现获取top10进程占用资源的监控结束,这只是本人匆忙之中写出的一个监控方式,拿出来给大家作参考,如果有更好的方式,可以和我共同探讨,大家共同进步,zabbix模板我将会放在附件中供大家下载。



  • 运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
    2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
    3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
    4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
    5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
    6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
    7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
    8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

    所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-667219-1-1.html 上篇帖子: zabbix 使用进阶(六) 下篇帖子: Centos7 Minimal上部署zabbix3.2遇到的两个坑
    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    扫码加入运维网微信交流群X

    扫码加入运维网微信交流群

    扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

    扫描微信二维码查看详情

    客服E-mail:kefu@iyunv.com 客服QQ:1061981298


    QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


    提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


    本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



    合作伙伴: 青云cloud

    快速回复 返回顶部 返回列表