设为首页 收藏本站
查看: 2105|回复: 0

[经验分享] cacti图断断续续

[复制链接]

尚未签到

发表于 2015-9-7 12:44:10 | 显示全部楼层 |阅读模式
  
  http://newyue.blog.iyunv.com/174760/542694
  最近cacti的图像全都是断断续续。新加的设备,图像也是这样,查看cacti 的log发现大量下面类似的错误信息:
04/12/2011 03:54:37 PM - SPINE: Poller[0] Host[233] DS[4990] WARNING: SNMP timeout detected [500 ms], ignoring host '192.168.2.134'
04/12/2011 03:54:37 PM - SPINE: Poller[0] Host[233] DS[4990] WARNING: SNMP timeout detected [500 ms], ignoring host '192.168.2.134'
  04/12/2011 03:55:02 PM - SPINE: Poller[0] WARNING: Host[1] DataQuery[1] Reindex Check FAILED: No SNMP Session.  If not an SNMP host, don't use Uptime Goes Backwards!
04/12/2011 03:55:02 PM - SPINE: Poller[0] WARNING: Host[1] DataQuery[13] Reindex Check FAILED: No SNMP Session.  If not an SNMP host, don't use Uptime Goes Backwards!
  经过网上查找,找到解决办法:
  1) 调整有问题的host的snmp timeout值,默认是500ms,调整至2000
2) 减小有问题的host的MAX OID's 数值,我的设置是10,后修改为60最大。
  修改后解决问题。
  分析原因:服务器刚搭建好时,所有图像都正常,但是相关数值设置比较小,添加时均以默认添加,随着服务器数量的增加,导致服务器压力越来越大,初始设置的数值不足以支撑庞大的轮循,所以导致服务器在500ms内超时。原因只是大概判断,具体还需后续观察跟进。
  本文出自 “我的运维之路” 博客,请务必保留此出处http://newyue.blog.iyunv.com/174760/542694
  ==================================================
  http://www.chenjunlu.com/2011/05/tips-for-improving-the-performance-of-cacti-server/
  这几天一直在深入研究 Cacti 的配置,我发现 Cacti 的功能真的很强大,而且大部分的配置和调试工作只需要在图形化的界面上做操作即可。由于公司的 Cacti 监控服务器上配置的监控端越来越多,所以有些监控端出现图形不连续的现象,调高 Cacti 的 log 等级,我在 cacti.log 文件中发现如下的警告信息:

  05/25/2011 10:55:39 AM – SPINE: Poller[0] Host[46] TH[1] DS[862] WARNING: SNMP timeout detected [500 ms], ignoring host ‘10.10.2.91’
  05/25/2011 10:55:38 AM – SPINE: Poller[0] Host[46] TH[1] DS[862] WARNING: SNMP timeout detected [500 ms], ignoring host ‘10.10.2.91’

  Cacti 官方手册中给出的解释如下:

  For “reasonable” timeouts, this may be related to a snmpbulkwalk issue. To change this, see Settings, Poller and lower the value for The Maximum SNMP OID’s Per SNMP Get Request. Start at a value of 2 and increase it again, if the poller starts working. (1 or less disables snmpbulkwalk) Some agent’s don’t have the horsepower to deliver that many OID’s at a time. Therefore, we can reduce the number for those older/underpowered devices.

  我在 Device 配置界面下,将“Maximum OID’s Per Get Request”值设置为最小值“1”,该问题解决了。但是过了一段时间图像又开始断断续续的,而且生成的 rrd 文件中的数值都是 NaN,在监控服务器端的命令行下执行 snmpwalk 命令,发现屏幕输出跑了一些信息后停下来显示 Timeout: No Response from 10.10.2.91,这是由于网络状况不太好,所以导致 Cacti 服务没有完全获得监控端的 SNMP 信息就 Timeout 了。为了证明我的猜测,我在之前的运行的 snmpwalk 命令中加入“-t 120”选项,结果 snmpwalk 获得了完整的监控端 SNMP 信息。所以我在 Device 配置界面下设置“SNMP Timeout”值为 20000,问题彻底解决了,同时我把“Maximum OID’s Per Get Request”值又重新调整为默认值“10”。这样可以减少 Cacti 监控服务器访问监控端的 SNMP 服务的次数从而提高性能。如果你的网络状况很好的情况下,你可以进一步的调高“Maximum OID’s Per Get Request”值。
  Cacti 服务自带的轮询脚本(cmd.php)性能低下,如果监控点多的话,平均5分钟脚本有可能执行不完,经常导致图形断断续续,所以我推荐大家采用 spine,它的效率要高于 cmd.php 脚本。由于Cacti 服务需要写 rrd 文件记录监控信息,所以在监控点多的情况下,会经常性遇到 Disk I/O 的性能瓶颈。所以对 Cacti 监控服务器进行一定的性能优化配置十分有必要。下面我来介绍几个性能优化技巧:
  1.  Settings 中修改“poller type”为 Spine,修改 Spine Specific Execution Parameters 里的 Maximum Threads per Process 为监控服务器 cpu 个数的2倍。我在实际的操作中将该值从默认值“1”修改为“16”,但是 Poller 的运行时间反倒增加了,再修改为“8”,情况好一些,所以大家可以自己随意改写该数值,然后在 cacti.log 文件中查询 Poller 轮询运行时间的变化,然后确定最优的方案。如果在 cacti.log 文件中出现如下警告,请按照警告信息在 Cacti 监控服务器端修改相应文件的操作权限。

  05/25/2011 09:00:02 AM – SPINE: Poller[0] WARNING: Spine NOT running asroot. This is required if using ICMP. Please run “chmod +s;chown root:root spine” to resolve.

  2. 给 Cacti 的 MySQL数据库中的表创建索引。默认的 cacti.sql 里一个索引都没有,具体操作如下:

  [iyunv@pubservicedb rra]# mysql -uroot
  mysql> use cacti;
Database changed
  mysql> CREATE INDEX `data_template_data_id` ON `data_input_data` (`data_template_data_id`);
Query OK, 7498 rows affected (0.09 sec)
Records: 7498 Duplicates: 0 Warnings: 0
  mysql> CREATE INDEX `host_id_snmp_query_id_snmp_index` ON data_local (`host_id`,`snmp_query_id`,`snmp_index`);
Query OK, 333 rows affected (0.04 sec)
Records: 333 Duplicates: 0 Warnings: 0
  mysql> CREATE INDEX `local_data_id_data_source_name` ON data_template_rrd (`local_data_id`,`data_source_name`);
Query OK, 742 rows affected (0.05 sec)
Records: 742 Duplicates: 0 Warnings: 0
  mysql> CREATE INDEX `graph_template_id_local_graph_id` ON graph_templates_item (`graph_template_id`,`local_graph_id`);
Query OK, 2887 rows affected (0.08 sec)
Records: 2887 Duplicates: 0 Warnings: 0
  mysql> CREATE INDEX `local_graph_template_item_id` ON graph_templates_item (`local_graph_template_item_id`);
Query OK, 2887 rows affected (0.07 sec)
Records: 2887 Duplicates: 0 Warnings: 0
  mysql> CREATE INDEX `host_id_snmp_query_id_snmp_index` ON host_snmp_cache (`host_id`,`snmp_query_id`,`snmp_index`);
Query OK, 1012 rows affected (0.09 sec)
Records: 1012 Duplicates: 0 Warnings: 0
  mysql> CREATE INDEX `local_data_id_rrd_path` ON poller_item (`local_data_id`,`rrd_path`);
Query OK, 416 rows affected (0.04 sec)
Records: 416 Duplicates: 0 Warnings: 0
  mysql> CREATE INDEX `host_id_rrd_next_step` ON poller_item (`host_id`,`rrd_next_step`);
Query OK, 416 rows affected (0.05 sec)
Records: 416 Duplicates: 0 Warnings: 0
  mysql> CREATE INDEX host_id_snmp_query_id ON host_snmp_cache (host_id,snmp_query_id);
Query OK, 1012 rows affected (0.07 sec)
Records: 1012 Duplicates: 0 Warnings: 0
  mysql> CREATE INDEX host_id_snmp_port ON poller_item (host_id,snmp_port);
Query OK, 416 rows affected (0.05 sec)
Records: 416 Duplicates: 0 Warnings: 0
  mysql> CREATE INDEX data_source_path ON data_template_data (data_source_path);
Query OK, 414 rows affected (0.04 sec)
Records: 414 Duplicates: 0 Warnings: 0
  mysql>

  3. 重构 rra 目录结构,按照 device 划分 rra 目录结构。Settings 里的 Paths 选项卡中勾选 “Structured RRA Path (/host_id/local_data_id.rrd)”,如果不成功,请在命令行下执行如下操作:

  [iyunv@pubservicedb rra]# /usr/local/php/bin/php /usr/local/apache/htdocs/cacti/cli/structure_rra_paths.php –proceed

  网上有人按照这个优化的方案优化了 Cacti 监控服务,测试的结果是:710台服务器,24000个 rrd 文件,完成一次 poller.php 的时间,缩短到50 seconds。
  如果再出现瓶颈,可以考虑安装 Boost 插件来进一步提升性能。我会在未来写一篇关于 Boost 插件的安装与应用的文章,感兴趣的朋友可以关注。
  ===================================================
  http://www.cnyunwei.com/thread-24259-1-1.html

在设置里,把Poller轮训器的线程改多就好了,
Maximum Concurrent Poller Processes
Maximum Threads per Process
  =============
  http://bbs.chinaunix.net/thread-3661659-1-1.html
  流量图显示断断续续的。
经过查找分析得出以下几个方面来解决。
------------------------------------------------------------------------------------------------------------------------------------
Tasks:  72 total,      2 running,  70 sleeping,      0 stopped,      0 zombie
Cpu(s): 10.4% us,  6.1% sy,  0.0% ni, 41.9% id, 41.6% wa,  0.0% hi,  0.0% si
Mem:      2074824k total,   2046988k used,     27836k free,         19880k buffers
Swap:       779144k total,           208k used,       778936k free,  1841200k cached
① 首先查看本服务器内存使用情况,如果本机内存使用达到 80% 以上后,流量图会出现断断续续的现象
【解决方法】增加内存。
------------------------------------------------------------------------------------------------------------------------------------
② 查看 Cacti 版本信息,我现在的版本是 0.8.7c 版本,升级到最新版本后,流量图断断续续的情况消失。
【解决方法】升级 Cacti 版本到最新。
------------------------------------------------------------------------------------------------------------------------------------
③ 设置流量刷新时间,由原来的每 5 分钟,更改为每 1 分钟更新一次。
【解决方法】更改刷新时间。
更改刷新时间的具体方法如下:
·在 Cacti 设置项中有两处需要更改
·还在本服务器上更改 crontab -e 的时间。
------------------------------------------------------------------------------------------------------------------------------------
④ 用户冲突,比如有两个以上用户设置了crontab 的自动执行程序,导致用户频繁切换。
可以通过查看 /rra下面的文件属性得知。
------------------------------------------------------------------------------------------------------------------------------------
⑤ SNMP 用 UDP 包通讯,有时会引起丢包。特别在远程网或压力大的时候。
【解决方法】增大 timeout 时间
------------------------------------------------------------------------------------------------------------------------------------
⑥  php 脚本也是有 timeout 的.
------------------------------------------------------------------------------------------------------------------------------------
⑦ cacti 服务器,怎么只有图,没有数据,
手动执行 # /usr/local/php/bin/php /usr/local/apache2/htdocs/cacti/poller.php  //很多时候都通过手动执行得到错误提示。
提示 File size limit exceeded,原来是某个文件超过了系统限制文件的大小,用 find 命令查看比较大的文件,发现 cacti 的日志文件好大,清空了他的内容,然后过几分钟再去看图,数据出现了,这里也给我提示了个信息,不要把 cacti 调整到 debug 模式,否则很可能出现这样的问题。
参考:
http://q.sohu.com/forum/5/topic/2100365
fox<jianglianghe@gmail.com>
http://bbs2.chinaunix.net/thread-1320904-1-1.html
http://blog.chinaunix.net/u2/75613/showart_1977730.html
  
  http://blog.sina.com.cn/s/blog_5d3855450100momp.html


安装了cacti 0.8.7b 运行几天之后,发现生成的图形断断续续。查找原因发现是mysql产生了很多sleep连接不释放,以致影响cacti的查询。

mysql> show processlist;

发现sleep很多+—-+———–+———–+——-+———+——+——-+——————+

| Id | User      | Host      | db    | Command | Time | State | Info             |

+—-+———–+———–+——-+———+——+——-+——————+

|  1 | root      | localhost | NULL  | Query   |    0 | NULL  | show processlist |

|  3 | cactiuser | localhost | cacti | Sleep   |  409 |       | NULL             |

|  4 | cactiuser | localhost | cacti | Sleep   |  403 |       | NULL             |

|  5 | cactiuser | localhost | cacti | Sleep   |  406 |       | NULL             |

| 20 | cactiuser | localhost | cacti | Sleep   |  401 |       | NULL             |

| 22 | cactiuser | localhost | cacti | Sleep   |  199 |       | NULL             |

| 23 | cactiuser | localhost | cacti | Sleep   |  179 |       | NULL             |

| 24 | cactiuser | localhost | cacti | Sleep   |  158 |       | NULL             |

| 25 | cactiuser | localhost | cacti | Sleep   |  134 |       | NULL             |

| 26 | cactiuser | localhost | cacti | Sleep   |  114 |       | NULL             |

| 41 | cactiuser | localhost | cacti | Sleep   |   90 |       | NULL             |

| 42 | cactiuser | localhost | cacti | Sleep   |   69 |       | NULL             |

| 43 | cactiuser | localhost | cacti | Sleep   |   48 |       | NULL             |

| 44 | cactiuser | localhost | cacti | Sleep   |   28 |       | NULL             |

| 45 | cactiuser | localhost | cacti | Sleep   |    4 |       | NULL             |

+—-+———–+———–+——-+———+——+——-+——————+

15 rows in set (0.00 sec)



mysql> show variables like ‘max_connections’;

+—————–+——-+

| Variable_name   | Value |

+—————–+——-+

| max_connections | 100   |

+—————–+——-+

1 row in set (0.00 sec)



mysql> show status like ‘max_used_connections’;

+———————-+——-+

| Variable_name        | Value |

+———————-+——-+

| Max_used_connections | 24    |

+———————-+——-+

1 row in set (0.00 sec)



mysql> show status like ‘thread%’;

+——————-+——-+

| Variable_name     | Value |

+——————-+——-+

| Threads_cached    | 0     |

| Threads_connected | 19    |

| Threads_created   | 29    |

| Threads_running   | 1     |

+——————-+——-+

4 rows in set (0.00 sec)



mysql> show variables like ‘wait_timeout’;

+—————+——-+

| Variable_name | Value |

+—————+——-+

| wait_timeout  | 28800 |

+—————+——-+

1 row in set (0.00 sec)



修改my.cnf



wait_timeout = 30

interactive_timeout = 30



重启数据库



mysql> show variables like ‘wait_timeout’;

+—————+——-+

| Variable_name | Value |

+—————+——-+

| wait_timeout  | 30 |

+—————+——-+

1 row in set (0.00 sec)

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-110579-1-1.html 上篇帖子: cacti安装完后就停留在登陆界面,输入默认的用户名密码登陆不进去! 下篇帖子: Linux下cacti的安装
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表