记一次Zabbix延时问题
zabbix server队列延时问题:查看队列数,发现队列延时一致高于某个值,于是来查查是什么问题导致。
http://i2.运维网.com/images/blog/201802/02/384ac86de260c09bb12610f21967b75a.png
1. 查看队列延时详细信息
http://i2.运维网.com/images/blog/201802/02/5ee1ad0eb89025e77dd2a289f867f69e.png
http://i2.运维网.com/images/blog/201802/02/52346d080b2d734bd603e0236752d9b9.png
我们可以看到延时都对应某个监控项。此时已某主机查看监控数据,以10.70.242.201为例。
2. 查看监控数据
http://i2.运维网.com/images/blog/201802/02/ea5ae3b5aca5c5146c921a14594da328.png
我们可以看到延时的数据自从早上八点就没有更新了。
3. 查看特定item的图形
http://i2.运维网.com/images/blog/201802/02/0d830c52adf2fa5efda07913ec04250f.png
可以看出数据的不连续,而这种情况只出现在某些固定的item上。可也粗略推测是此数据的某些特征导致延时,
4. 查看延时item的配置
我们发现延时严重的item多半主动检测
5. 查看主机agent的配置文件
查看是否开启了主动检测ServerActive指令是否开启?查看开启了。
6. 查看日志文件
agent日志文件
1592:20170914:115210.600 active check data upload to started to fail ( cannot connect to [:10051]: (null))
1592:20170914:115351.720 active check configuration update from started to fail (cannot connect to [:10051]: (null))
我们可以看到agent端上传主动检测的数据时,无法连接到主机。这个表明agent可以从server端获取监控的items。
server端日志
cannot send list of active checks to "192.168.242.201": host not found
7. 问题原因
这是由于agent端和server端标记主机的方式不同,主动检测时,agent的身份是配置文件中hostname的值,如果hostname没有指明,则使用主机名代替,而我们server端标识主机使用的IP导致无法识别agent 主机。
8. 解决方法
[*]只需将server 添加主机值主机名称和agent中配置指令hostname一致进行。
[*]将主动检测改为被动检测。
9. 总结
解决问题时,一步步验证猜测。往往日志文件会给我们很大的提示。
页:
[1]