设为首页 收藏本站
查看: 1137|回复: 0

[经验分享] mikoomi -Zabbix监控Apache Hadoop插件/模板 (翻译)

[复制链接]

尚未签到

发表于 2018-10-31 09:31:34 | 显示全部楼层 |阅读模式
  总揽
  这个Hadoop插件可以用来监控Hadoop集群的NameNode和JobTracker。Hadoop is the leading and defacto distributed big data processing system "out there"。然而被像雅虎(据说拥有非常庞大的Hadoop集群),Facebook,Groupon等公司所使用的似乎只有Ganglia和openTSDB两种监控解决方案。当您阅读文档,你会发现这两个监测解决方案是非常紧密的结合Hadoop并且对Hadoop的版本、库等信息十分敏感。
  这个Hadoop插件的主旨是在已经运行的Hadoop集群或者Zabbix服务中不需要安装任何软件并且能直接使用。这太好了是真的吗?你为什么不继续把下面的内容读完......
  安装和配置
  这个Hadoop插件用于从Hadoop的NameNode和JobTracker的Web UI接口截取信息。没有必要添加或者修改任何Hadoop的配置参数或重启你的Hadoop集群。下载这个插件之后你仅需要花费不超过5分钟的时间就能运行这个插件。
  这个插件会调用一个叫做curl的命令工具,所以需要先安装这个命令工具。在Zabbix这边,你可以登录root用户(默认密码为zabbix)运行yast -i curl命令。注意虽然curl的包是非常小的,但是yast将花费几分钟的时间重新更新包仓库。接下来下载Hadoop插件它包括2个shell脚本和2个模板xml文件,下载路径是:http://mikoomi.googlecode.com/svn/plugins/。在Zabbix服务器上创建目录/etc/zabbix/externalscripts,并将shell脚本复制到这个目录里面。
  完成上述操作后打开浏览器,下载NameNode和JobTracker的模板文件,下载路径是:http://mikoomi.googlecode.com/svn/plugins/。打开一个新的浏览窗口或者标签,登录Zabbix的前端(默认的用户名是admin,密码是zabbix)。
  操作如下:
  Configuration >> Templates
  点击窗口右上角的“Import Template”按钮
  在“Import file”对话框内, 找到并选中刚才下载的模板文件。
  上传模板
  现在你可以开始监控你的Hadoop集群了。使用说明如下:
  监控你的Hadoop集群
  按照下面的步骤进行:
  监控NameNode
  登录Zabbix的前端然后点击导航栏上的Configuration >> Hosts
  点击右上角的“Create Host”按钮
  按照提示填写监控选项 - Name:你选择的名字(在Zabbix中每一个监控实体被称为一个主机 - 但是它可能是一个主机、一个服务、一个程序乃至一个集群)。
  完成后单击“templates”选项卡里面的“Add”按钮。
  你将看到一个模板列表 - 选择“Template_Hadoop_NameNode”
  在“Macros”选项卡里面添加如下宏-
  {$HADOOP_NAMENODE_HOST}
  {$HADOOP_NAMENODE_METRICS_PORT}
  {$ZABBIX_NAME}
  {$HADOOP_NAMENODE_HOST}的值应该是NameNode节点服务器的主机名或者完全主机名(可以在网络上ping通)。{$HADOOP_NAMENODE_METRICS_PORT}的值是NameNode的Web UI管理界面的端口。最后{$ZABBIX_NAME}是前面在Zabbix前端定义的NameNode的实体名称。
  同样的,安装监控JobTracker的步骤如下 -
  监控JobTracker
  登录Zabbix的前端然后点击导航栏上的Configuration >> Hosts
  点击右上角的“Create Host”按钮
  按照提示填写监控选项 - Name:你选择的名字(在Zabbix中每一个监控实体被称为一个主机 - 但是它可能是一个主机、一个服务、一个程序乃至一个集群)。
  完成后单击“templates”选项卡里面的“Add”按钮。
  你将看到一个模板列表 - 选择“Template_Hadoop_JobTracker”
  在“Macros”选项卡里面添加如下宏-
  {$HADOOP_JOBTRACKER_HOST}
  {$HADOOP_JOBTRACKER_METRICS_PORT}
  {$ZABBIX_NAME}
  {$HADOOP_NAMENODE_HOST}的值应该是NameNode节点服务器的主机名或者完全主机名(可以在网络上ping通)。{$HADOOP_NAMENODE_METRICS_PORT}的值是NameNode的Web UI管理界面的端口。最后{$ZABBIX_NAME}是前面在Zabbix前端定义的NameNode的实体名称。
  NameNode监控指标
  Configured Cluster Storage

  Configured Max. Heap>  Hadoop Version

  NameNode Process Heap>  NameNode Start Time
  Number of Dead Nodes
  Number of Decommissioned Nodes
  Number of Files and Directories in HDFS
  Number of HDFS Blocks Used
  Number of Live Nodes
  Number of Under-Replicated Blocks
  Ping Check
  Storage Unit
  Total % of Storage Available
  Total % of Storage Used
  Total Storage Available
  Total Storage Used by DFS
  Total Storage Used by non-DFS
  Least (min) Node-level non-DFS Storage Used
  Least (min) Node-level Storage Configured
  Least (min) Node-level Storage Free
  Least (min) Node-level Storage Free %
  Least (min) Node-level Storage Used
  Least (min) Node-level Storage Used %
  Most (max) Node-level non-DFS Storage Used
  Most (max) Node-level Storage Configured
  Most (max) Node-level Storage Free
  Most (max) Node-level Storage Free %
  Most (max) Node-level Storage Used
  Most (max) Node-level Storage Used %
  Node-level Storage Unit of Measure
  Node with Least (min) Node-level non-DFS Storage Used
  Node with Least (min) Node-level Storage Configured
  Node with Least (min) Node-level Storage Free
  Node with Least (min) Node-level Storage Free %
  Node with Least (min) Node-level Storage Used
  Node with Least (min) Node-level Storage Used %
  Node with Most (max) Node-level non-DFS Storage Used
  Node with Most (max) Node-level Storage Configured
  Node with Most (max) Node-level Storage Free
  Node with Most (max) Node-level Storage Free %
  Node with Most (max) Node-level Storage Used
  Node with Most (max) Node-level Storage Used %
  JobTracker监控指标
  Average Task Capacity Per Node
  Hadoop Version
  JobTracker Start Time
  JobTracker State
  Map Task Capacity
  Number of Blacklisted Nodes
  Number of Excluded Nodes
  Number of Jobs Completed
  Number of Jobs Failed
  Number of Jobs Retired
  Number of Jobs Running
  Number of Jobs Submitted
  Number of Map Tasks Running
  Number of Nodes in Hadoop Cluster
  Number of Reduce Tasks Running
  Occupied Map Slots
  Occupied Reduce Slots
  Reduce Task Capacity
  Reserved Map Slots
  Reserved Reduce Slots
  Pre-canned NameNode Triggers
  Less than 20% free space available on the cluster
  NameNode was restarted
  No monitoring data received for the last 10 minutes
  One or more nodes have become alive or restarted
  One or more nodes have become dead
  One or more nodes have been added to the decommissioned list
  One or more nodes have been removed from the decommissioned list
  The number of live nodes has been reduced
  The number of live nodes has increased
  There has been a reduction in the number of under-replicated blocks
  There has been an increase in the number of under-replicated blocks
  Less than 20% free space available on one or more nodes in the cluster
  Pre-canned JobTracker Triggers
  No monitoring data received for the last 10 minutes
  One or more jobs have failed
  One or more nodes have become blacklisted
  One or more nodes have been added to the exclude list
  One or more nodes have been added to the Hadoop cluster
  One or more nodes have been removed from the blacklisted nodes
  One or more nodes have been removed from the exclude list
  One or more nodes have been removed from the Hadoop cluster
  The JobTracker was restarted


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-628789-1-1.html 上篇帖子: hadoop集群之添加撤销datanode节点 下篇帖子: Hadoop连载系列之二:Zookeeper分布式安装
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表