cacti图断断续续
http://newyue.blog.iyunv.com/174760/542694
最近cacti的图像全都是断断续续。新加的设备,图像也是这样,查看cacti 的log发现大量下面类似的错误信息:
04/12/2011 03:54:37 PM - SPINE: Poller Host DS WARNING: SNMP timeout detected , ignoring host '192.168.2.134'
04/12/2011 03:54:37 PM - SPINE: Poller Host DS WARNING: SNMP timeout detected , ignoring host '192.168.2.134'
04/12/2011 03:55:02 PM - SPINE: Poller WARNING: Host DataQuery Reindex Check FAILED: No SNMP Session.If not an SNMP host, don't use Uptime Goes Backwards!
04/12/2011 03:55:02 PM - SPINE: Poller WARNING: Host DataQuery Reindex Check FAILED: No SNMP Session.If not an SNMP host, don't use Uptime Goes Backwards!
经过网上查找,找到解决办法:
1) 调整有问题的host的snmp timeout值,默认是500ms,调整至2000
2) 减小有问题的host的MAX OID's 数值,我的设置是10,后修改为60最大。
修改后解决问题。
分析原因:服务器刚搭建好时,所有图像都正常,但是相关数值设置比较小,添加时均以默认添加,随着服务器数量的增加,导致服务器压力越来越大,初始设置的数值不足以支撑庞大的轮循,所以导致服务器在500ms内超时。原因只是大概判断,具体还需后续观察跟进。
本文出自 “我的运维之路” 博客,请务必保留此出处http://newyue.blog.iyunv.com/174760/542694
==================================================
http://www.chenjunlu.com/2011/05/tips-for-improving-the-performance-of-cacti-server/
这几天一直在深入研究 Cacti 的配置,我发现 Cacti 的功能真的很强大,而且大部分的配置和调试工作只需要在图形化的界面上做操作即可。由于公司的 Cacti 监控服务器上配置的监控端越来越多,所以有些监控端出现图形不连续的现象,调高 Cacti 的 log 等级,我在 cacti.log 文件中发现如下的警告信息:
05/25/2011 10:55:39 AM – SPINE: Poller Host TH DS WARNING: SNMP timeout detected , ignoring host ‘10.10.2.91’
05/25/2011 10:55:38 AM – SPINE: Poller Host TH DS WARNING: SNMP timeout detected , ignoring host ‘10.10.2.91’
Cacti 官方手册中给出的解释如下:
For “reasonable” timeouts, this may be related to a snmpbulkwalk issue. To change this, see Settings, Poller and lower the value for The Maximum SNMP OID’s Per SNMP Get Request. Start at a value of 2 and increase it again, if the poller starts working. (1 or less disables snmpbulkwalk) Some agent’s don’t have the horsepower to deliver that many OID’s at a time. Therefore, we can reduce the number for those older/underpowered devices.
我在 Device 配置界面下,将“Maximum OID’s Per Get Request”值设置为最小值“1”,该问题解决了。但是过了一段时间图像又开始断断续续的,而且生成的 rrd 文件中的数值都是 NaN,在监控服务器端的命令行下执行 snmpwalk 命令,发现屏幕输出跑了一些信息后停下来显示 Timeout: No Response from 10.10.2.91,这是由于网络状况不太好,所以导致 Cacti 服务没有完全获得监控端的 SNMP 信息就 Timeout 了。为了证明我的猜测,我在之前的运行的 snmpwalk 命令中加入“-t 120”选项,结果 snmpwalk 获得了完整的监控端 SNMP 信息。所以我在 Device 配置界面下设置“SNMP Timeout”值为 20000,问题彻底解决了,同时我把“Maximum OID’s Per Get Request”值又重新调整为默认值“10”。这样可以减少 Cacti 监控服务器访问监控端的 SNMP 服务的次数从而提高性能。如果你的网络状况很好的情况下,你可以进一步的调高“Maximum OID’s Per Get Request”值。
Cacti 服务自带的轮询脚本(cmd.php)性能低下,如果监控点多的话,平均5分钟脚本有可能执行不完,经常导致图形断断续续,所以我推荐大家采用 spine,它的效率要高于 cmd.php 脚本。由于Cacti 服务需要写 rrd 文件记录监控信息,所以在监控点多的情况下,会经常性遇到 Disk I/O 的性能瓶颈。所以对 Cacti 监控服务器进行一定的性能优化配置十分有必要。下面我来介绍几个性能优化技巧:
1.Settings 中修改“poller type”为 Spine,修改 Spine Specific Execution Parameters 里的 Maximum Threads per Process 为监控服务器 cpu 个数的2倍。我在实际的操作中将该值从默认值“1”修改为“16”,但是 Poller 的运行时间反倒增加了,再修改为“8”,情况好一些,所以大家可以自己随意改写该数值,然后在 cacti.log 文件中查询 Poller 轮询运行时间的变化,然后确定最优的方案。如果在 cacti.log 文件中出现如下警告,请按照警告信息在 Cacti 监控服务器端修改相应文件的操作权限。
05/25/2011 09:00:02 AM – SPINE: Poller WARNING: Spine NOT running asroot. This is required if using ICMP. Please run “chmod +s;chown root:root spine” to resolve.
2. 给 Cacti 的 MySQL数据库中的表创建索引。默认的 cacti.sql 里一个索引都没有,具体操作如下:
# mysql -uroot
mysql> use cacti;
Database changed
mysql> CREATE INDEX `data_template_data_id` ON `data_input_data` (`data_template_data_id`);
Query OK, 7498 rows affected (0.09 sec)
Records: 7498 Duplicates: 0 Warnings: 0
mysql> CREATE INDEX `host_id_snmp_query_id_snmp_index` ON data_local (`host_id`,`snmp_query_id`,`snmp_index`);
Query OK, 333 rows affected (0.04 sec)
Records: 333 Duplicates: 0 Warnings: 0
mysql> CREATE INDEX `local_data_id_data_source_name` ON data_template_rrd (`local_data_id`,`data_source_name`);
Query OK, 742 rows affected (0.05 sec)
Records: 742 Duplicates: 0 Warnings: 0
mysql> CREATE INDEX `graph_template_id_local_graph_id` ON graph_templates_item (`graph_template_id`,`local_graph_id`);
Query OK, 2887 rows affected (0.08 sec)
Records: 2887 Duplicates: 0 Warnings: 0
mysql> CREATE INDEX `local_graph_template_item_id` ON graph_templates_item (`local_graph_template_item_id`);
Query OK, 2887 rows affected (0.07 sec)
Records: 2887 Duplicates: 0 Warnings: 0
mysql> CREATE INDEX `host_id_snmp_query_id_snmp_index` ON host_snmp_cache (`host_id`,`snmp_query_id`,`snmp_index`);
Query OK, 1012 rows affected (0.09 sec)
Records: 1012 Duplicates: 0 Warnings: 0
mysql> CREATE INDEX `local_data_id_rrd_path` ON poller_item (`local_data_id`,`rrd_path`);
Query OK, 416 rows affected (0.04 sec)
Records: 416 Duplicates: 0 Warnings: 0
mysql> CREATE INDEX `host_id_rrd_next_step` ON poller_item (`host_id`,`rrd_next_step`);
Query OK, 416 rows affected (0.05 sec)
Records: 416 Duplicates: 0 Warnings: 0
mysql> CREATE INDEX host_id_snmp_query_id ON host_snmp_cache (host_id,snmp_query_id);
Query OK, 1012 rows affected (0.07 sec)
Records: 1012 Duplicates: 0 Warnings: 0
mysql> CREATE INDEX host_id_snmp_port ON poller_item (host_id,snmp_port);
Query OK, 416 rows affected (0.05 sec)
Records: 416 Duplicates: 0 Warnings: 0
mysql> CREATE INDEX data_source_path ON data_template_data (data_source_path);
Query OK, 414 rows affected (0.04 sec)
Records: 414 Duplicates: 0 Warnings: 0
mysql>
3. 重构 rra 目录结构,按照 device 划分 rra 目录结构。Settings 里的 Paths 选项卡中勾选 “Structured RRA Path (/host_id/local_data_id.rrd)”,如果不成功,请在命令行下执行如下操作:
# /usr/local/php/bin/php /usr/local/apache/htdocs/cacti/cli/structure_rra_paths.php –proceed
网上有人按照这个优化的方案优化了 Cacti 监控服务,测试的结果是:710台服务器,24000个 rrd 文件,完成一次 poller.php 的时间,缩短到50 seconds。
如果再出现瓶颈,可以考虑安装 Boost 插件来进一步提升性能。我会在未来写一篇关于 Boost 插件的安装与应用的文章,感兴趣的朋友可以关注。
===================================================
http://www.cnyunwei.com/thread-24259-1-1.html
在设置里,把Poller轮训器的线程改多就好了,
Maximum Concurrent Poller Processes
Maximum Threads per Process
=============
http://bbs.chinaunix.net/thread-3661659-1-1.html
流量图显示断断续续的。
经过查找分析得出以下几个方面来解决。
------------------------------------------------------------------------------------------------------------------------------------
Tasks:72 total, 2 running,70 sleeping, 0 stopped, 0 zombie
Cpu(s): 10.4% us,6.1% sy,0.0% ni, 41.9% id, 41.6% wa,0.0% hi,0.0% si
Mem: 2074824k total, 2046988k used, 27836k free, 19880k buffers
Swap: 779144k total, 208k used, 778936k free,1841200k cached
① 首先查看本服务器内存使用情况,如果本机内存使用达到 80% 以上后,流量图会出现断断续续的现象
【解决方法】增加内存。
------------------------------------------------------------------------------------------------------------------------------------
② 查看 Cacti 版本信息,我现在的版本是 0.8.7c 版本,升级到最新版本后,流量图断断续续的情况消失。
【解决方法】升级 Cacti 版本到最新。
------------------------------------------------------------------------------------------------------------------------------------
③ 设置流量刷新时间,由原来的每 5 分钟,更改为每 1 分钟更新一次。
【解决方法】更改刷新时间。
更改刷新时间的具体方法如下:
·在 Cacti 设置项中有两处需要更改
·还在本服务器上更改 crontab -e 的时间。
------------------------------------------------------------------------------------------------------------------------------------
④ 用户冲突,比如有两个以上用户设置了crontab 的自动执行程序,导致用户频繁切换。
可以通过查看 /rra下面的文件属性得知。
------------------------------------------------------------------------------------------------------------------------------------
⑤ SNMP 用 UDP 包通讯,有时会引起丢包。特别在远程网或压力大的时候。
【解决方法】增大 timeout 时间
------------------------------------------------------------------------------------------------------------------------------------
⑥php 脚本也是有 timeout 的.
------------------------------------------------------------------------------------------------------------------------------------
⑦ cacti 服务器,怎么只有图,没有数据,
手动执行 # /usr/local/php/bin/php /usr/local/apache2/htdocs/cacti/poller.php//很多时候都通过手动执行得到错误提示。
提示 File size limit exceeded,原来是某个文件超过了系统限制文件的大小,用 find 命令查看比较大的文件,发现 cacti 的日志文件好大,清空了他的内容,然后过几分钟再去看图,数据出现了,这里也给我提示了个信息,不要把 cacti 调整到 debug 模式,否则很可能出现这样的问题。
参考:
http://q.sohu.com/forum/5/topic/2100365
fox<jianglianghe@gmail.com>
http://bbs2.chinaunix.net/thread-1320904-1-1.html
http://blog.chinaunix.net/u2/75613/showart_1977730.html
http://blog.sina.com.cn/s/blog_5d3855450100momp.html
安装了cacti 0.8.7b 运行几天之后,发现生成的图形断断续续。查找原因发现是mysql产生了很多sleep连接不释放,以致影响cacti的查询。
mysql> show processlist;
发现sleep很多+—-+———–+———–+——-+———+——+——-+——————+
| Id | User | Host | db | Command | Time | State | Info |
+—-+———–+———–+——-+———+——+——-+——————+
|1 | root | localhost | NULL| Query | 0 | NULL| show processlist |
|3 | cactiuser | localhost | cacti | Sleep |409 | | NULL |
|4 | cactiuser | localhost | cacti | Sleep |403 | | NULL |
|5 | cactiuser | localhost | cacti | Sleep |406 | | NULL |
| 20 | cactiuser | localhost | cacti | Sleep |401 | | NULL |
| 22 | cactiuser | localhost | cacti | Sleep |199 | | NULL |
| 23 | cactiuser | localhost | cacti | Sleep |179 | | NULL |
| 24 | cactiuser | localhost | cacti | Sleep |158 | | NULL |
| 25 | cactiuser | localhost | cacti | Sleep |134 | | NULL |
| 26 | cactiuser | localhost | cacti | Sleep |114 | | NULL |
| 41 | cactiuser | localhost | cacti | Sleep | 90 | | NULL |
| 42 | cactiuser | localhost | cacti | Sleep | 69 | | NULL |
| 43 | cactiuser | localhost | cacti | Sleep | 48 | | NULL |
| 44 | cactiuser | localhost | cacti | Sleep | 28 | | NULL |
| 45 | cactiuser | localhost | cacti | Sleep | 4 | | NULL |
+—-+———–+———–+——-+———+——+——-+——————+
15 rows in set (0.00 sec)
mysql> show variables like ‘max_connections’;
+—————–+——-+
| Variable_name | Value |
+—————–+——-+
| max_connections | 100 |
+—————–+——-+
1 row in set (0.00 sec)
mysql> show status like ‘max_used_connections’;
+———————-+——-+
| Variable_name | Value |
+———————-+——-+
| Max_used_connections | 24 |
+———————-+——-+
1 row in set (0.00 sec)
mysql> show status like ‘thread%’;
+——————-+——-+
| Variable_name | Value |
+——————-+——-+
| Threads_cached | 0 |
| Threads_connected | 19 |
| Threads_created | 29 |
| Threads_running | 1 |
+——————-+——-+
4 rows in set (0.00 sec)
mysql> show variables like ‘wait_timeout’;
+—————+——-+
| Variable_name | Value |
+—————+——-+
| wait_timeout| 28800 |
+—————+——-+
1 row in set (0.00 sec)
修改my.cnf
wait_timeout = 30
interactive_timeout = 30
重启数据库
mysql> show variables like ‘wait_timeout’;
+—————+——-+
| Variable_name | Value |
+—————+——-+
| wait_timeout| 30 |
+—————+——-+
1 row in set (0.00 sec)
页:
[1]