Cacti 监控服务性能的技巧

zhwz · 发表于 2019-1-10 09:02:22

　　这几天一直在深入研究 Cacti 的配置，我发现 Cacti 的功能真的很强大，而且大部分的配置和调试工作只需要在图形化的界面上做操作即可。由于公司的 Cacti 监控服务器上配置的监控端越来越多，所以有些监控端出现图形不连续的现象，调高 Cacti 的 log 等级，我在 cacti.log 文件中发现如下的警告信息：

　　05/25/2011 10:55:39 AM – SPINE: Poller[0] Host[46] TH[1] DS[862] WARNING: SNMP timeout detected [500 ms], ignoring host ’10.10.2.91′
　　05/25/2011 10:55:38 AM – SPINE: Poller[0] Host[46] TH[1] DS[862] WARNING: SNMP timeout detected [500 ms], ignoring host ’10.10.2.91′

　　Cacti 官方手册中给出的解释如下：

　　For “reasonable” timeouts, this may be>Settings, Poller and lower the value for The Maximum SNMP OID’s Per SNMP Get Request. Start at a value of 2 and increase it again, if the poller starts working. (1 or less disables snmpbulkwalk) Some agent’s don’t have the horsepower to deliver that many OID’s at a time. Therefore, we can reduce the number for those older/underpowered devices.

　　我在 Device 配置界面下，将“Maximum OID’s Per Get Request”值设置为最小值“1”，该问题解决了。但是过了一段时间图像又开始断断续续的，而且生成的 rrd 文件中的数值都是 NaN，在监控服务器端的命令行下执行 snmpwalk 命令，发现屏幕输出跑了一些信息后停下来显示 Timeout: No Response from 10.10.2.91，这是由于网络状况不太好，所以导致 Cacti 服务没有完全获得监控端的 SNMP 信息就 Timeout 了。为了证明我的猜测，我在之前的运行的 snmpwalk 命令中加入“-t 120”选项，结果 snmpwalk 获得了完整的监控端 SNMP 信息。所以我在 Device 配置界面下设置“SNMP Timeout”值为 20000，问题彻底解决了，同时我把“Maximum OID’s Per Get Request”值又重新调整为默认值“10”。这样可以减少 Cacti 监控服务器访问监控端的 SNMP 服务的次数从而提高性能。如果你的网络状况很好的情况下，你可以进一步的调高“Maximum OID’s Per Get Request”值。
　　Cacti 服务自带的轮询脚本（cmd.php）性能低下，如果监控点多的话，平均5分钟脚本有可能执行不完，经常导致图形断断续续，所以我推荐大家采用 spine，它的效率要高于 cmd.php 脚本。由于Cacti 服务需要写 rrd 文件记录监控信息，所以在监控点多的情况下，会经常性遇到 Disk I/O 的性能瓶颈。所以对 Cacti 监控服务器进行一定的性能优化配置十分有必要。下面我来介绍几个性能优化技巧：
　　1. Settings 中修改“poller type”为 Spine，修改 Spine Specific Execution Parameters 里的 Maximum Threads per Process 为监控服务器 cpu 个数的2倍。我在实际的操作中将该值从默认值“1”修改为“16”，但是 Poller 的运行时间反倒增加了，再修改为“8”，情况好一些，所以大家可以自己随意改写该数值，然后在 cacti.log 文件中查询 Poller 轮询运行时间的变化，然后确定最优的方案。如果在 cacti.log 文件中出现如下警告，请按照警告信息在 Cacti 监控服务器端修改相应文件的操作权限。

　　05/25/2011 09:00:02 AM – SPINE: Poller[0] WARNING: Spine NOT running asroot. This is required if using ICMP. Please run “chmod +s;chown root:root spine” to resolve.

　　2. 给 Cacti 的 MySQL数据库中的表创建索引。默认的 cacti.sql 里一个索引都没有，具体操作如下：

　　[root@pubservicedb rra]# mysql -uroot
　　mysql> use cacti;
　　Database changed
　　mysql> CREATE INDEX `data_template_data_id` ON `data_input_data` (`data_template_data_id`);
　　Query OK, 7498 rows affected (0.09 sec)
　　Records: 7498 Duplicates: 0 Warnings: 0
　　mysql> CREATE INDEX `host_id_snmp_query_id_snmp_index` ON data_local (`host_id`,`snmp_query_id`,`snmp_index`);
　　Query OK, 333 rows affected (0.04 sec)
　　Records: 333 Duplicates: 0 Warnings: 0
　　mysql> CREATE INDEX `local_data_id_data_source_name` ON data_template_rrd (`local_data_id`,`data_source_name`);
　　Query OK, 742 rows affected (0.05 sec)
　　Records: 742 Duplicates: 0 Warnings: 0
　　mysql> CREATE INDEX `graph_template_id_local_graph_id` ON graph_templates_item (`graph_template_id`,`local_graph_id`);
　　Query OK, 2887 rows affected (0.08 sec)
　　Records: 2887 Duplicates: 0 Warnings: 0
　　mysql> CREATE INDEX `local_graph_template_item_id` ON graph_templates_item (`local_graph_template_item_id`);
　　Query OK, 2887 rows affected (0.07 sec)
　　Records: 2887 Duplicates: 0 Warnings: 0
　　mysql> CREATE INDEX `host_id_snmp_query_id_snmp_index` ON host_snmp_cache (`host_id`,`snmp_query_id`,`snmp_index`);
　　Query OK, 1012 rows affected (0.09 sec)
　　Records: 1012 Duplicates: 0 Warnings: 0
　　mysql> CREATE INDEX `local_data_id_rrd_path` ON poller_item (`local_data_id`,`rrd_path`);
　　Query OK, 416 rows affected (0.04 sec)
　　Records: 416 Duplicates: 0 Warnings: 0
　　mysql> CREATE INDEX `host_id_rrd_next_step` ON poller_item (`host_id`,`rrd_next_step`);
　　Query OK, 416 rows affected (0.05 sec)
　　Records: 416 Duplicates: 0 Warnings: 0
　　mysql> CREATE INDEX host_id_snmp_query_id ON host_snmp_cache (host_id,snmp_query_id);
　　Query OK, 1012 rows affected (0.07 sec)
　　Records: 1012 Duplicates: 0 Warnings: 0
　　mysql> CREATE INDEX host_id_snmp_port ON poller_item (host_id,snmp_port);
　　Query OK, 416 rows affected (0.05 sec)
　　Records: 416 Duplicates: 0 Warnings: 0
　　mysql> CREATE INDEX data_source_path ON data_template_data (data_source_path);
　　Query OK, 414 rows affected (0.04 sec)
　　Records: 414 Duplicates: 0 Warnings: 0
　　mysql>

　　3. 重构 rra 目录结构，按照 device 划分 rra 目录结构。Settings 里的 Paths 选项卡中勾选 “Structured RRA Path (/host_id/local_data_id.rrd)”，如果不成功，请在命令行下执行如下操作：

　　[root@pubservicedb rra]# /usr/local/php/bin/php /usr/local/apache/htdocs/cacti/cli/structure_rra_paths.php –proceed

　　网上有人按照这个优化的方案优化了 Cacti 监控服务，测试的结果是：710台服务器，24000个 rrd 文件，完成一次 poller.php 的时间，缩短到50 seconds。
　　如果再出现瓶颈，可以考虑安装 Boost 插件来进一步提升性能。我会在未来写一篇关于 Boost 插件的安装与应用的文章，感兴趣的朋友可以关注。

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] Cacti 监控服务性能的技巧

浏览过的版块

扫码加入运维网微信交流群