设为首页 收藏本站
查看: 708|回复: 0

[经验分享] hadoop hbase Ganglia 汇总

[复制链接]

尚未签到

发表于 2016-12-9 11:21:38 | 显示全部楼层 |阅读模式
  9.2.1. hbase.regionserver.blockCacheCount
  内存中的Block cache item数量。这个是存储文件(HFiles)的缓存中的数量。
  9.2.2. hbase.regionserver.blockCacheFree
  内存中的Block cache memory 剩余 (单位 bytes).
  9.2.3. hbase.regionserver.blockCacheHitRatio
  Block cache 命中率(0 到 100). TODO: 描述当cacheBlocks=false时对这个值得影响
  9.2.4. hbase.regionserver.blockCacheSize
  内存中的Block cache 大小 (单位 bytes)
  9.2.5. hbase.regionserver.compactionQueueSize
  compaction队列的大小. 这个值是需要进行compaction的region数目
  9.2.6. hbase.regionserver.fsReadLatency_avg_time
  文件系统延迟 (ms). 这个值是平均读HDFS的延迟时间
  9.2.7. hbase.regionserver.fsReadLatency_num_ops
  TODO
  9.2.8. hbase.regionserver.fsSyncLatency_avg_time
  文件系统同步延迟(ms)
  9.2.9. hbase.regionserver.fsSyncLatency_num_ops
  TODO
  9.2.10. hbase.regionserver.fsWriteLatency_avg_time
  文件系统写延迟(ms)
  9.2.11. hbase.regionserver.fsWriteLatency_num_ops
  TODO
  9.2.12. hbase.regionserver.memstoreSizeMB
  所有的RegionServer的memstore大小 (MB)
  9.2.13. hbase.regionserver.regions
  RegionServer服务的regions数量
  9.2.14. hbase.regionserver.requests
  读写请求的全部数量。请求是指RegionServer的RPC数量,因此一次Get一个情况,一个带缓存的Scan也是一个请求。一个批量load是一个Hfile一个请求。
  9.2.15. hbase.regionserver.storeFileIndexSizeMB
  当前RegionServer的storefile索引的总大小(MB)
  9.2.16. hbase.regionserver.stores
  RegionServer打开的stores数量。一个stores对应一个column family。例如,一个表有3个region在这个RegionServer上,对应一个 column family就会有3个store.
  9.2.17. hbase.regionserver.storeFiles
  RegionServer打开的存储文件(HFile)数量。这个值一定大于等于store的数量。
  dfs.datanode.blockChecksumOp_avg_time 块校验平均时间
  dfs.datanode.blockChecksumOp_num_ops 块检验次数
  dfs.datanode.blockReports_avg_time 块报告平均时间
  dfs.datanode.blockReports_num_ops 块报告次数
  dfs.datanode.block_verification_failures 块验证失败次数
  dfs.datanode.blocks_read 从硬盘读块总次数
  dfs.datanode.blocks_removed 删除块数目
  dfs.datanode.blocks_replicated 块复制总次数 
  dfs.datanode.blocks_verified 块验证总次数
  dfs.datanode.blocks_written 向硬盘写块总次数
  dfs.datanode.bytes_read 读出总字节包含crc验证文件字节数
  dfs.datanode.bytes_written 写入总字节数(在写入每个packet时计数)
  dfs.datanode.copyBlockOp_avg_time 复制块平均时间 (单位ms) 
  dfs.datanode.copyBlockOp_num_ops 复制块次数
  dfs.datanode.heartBeats_avg_time 向namenode汇报平均时间
  dfs.datanode.heartBeats_num_ops 向namenode汇报总次数
  dfs.datanode.readBlockOp_avg_time 读块平均时间(单位ms)
  dfs.datanode.readBlockOp_num_ops 读块总次数 一般和dfs.datanode.blocks_read 一致,先从硬盘读入输入流,增加dfs.datanode.blocks_read 计数,然后再增加该计数
  dfs.datanode.reads_from_local_client 从本地读入块次数
  dfs.datanode.reads_from_remote_client 从远程读入块次数
  dfs.datanode.replaceBlockOp_avg_time 替换块平均时间(负载均衡策略)
  dfs.datanode.replaceBlockOp_num_ops 替换块次数(负载均衡策略)
  dfs.datanode.volumeFailures notfound 和block拥有的volume 失败有关
  dfs.datanode.writeBlockOp_avg_time 写块平均时间
  dfs.datanode.writeBlockOp_num_ops 写块总次数一般和dfs.datanode.blocks_written 一致,先从硬盘,增加dfs.datanode.blocks_read 计数,然后再增加该计数
  dfs.datanode.writes_from_local_client 写本地次数
  dfs.datanode.writes_from_remote_client 写远程次数
  jvm.metrics.gcCount gc总次数
  jvm.metrics.gcTimeMillis gc总耗时(ms)
  jvm.metrics.logError jvm error 次数
  jvm.metrics.logFatal jvm出现fatal次数
  jvm.metrics.logInfo jvm info出现次数
  jvm.metrics.logWarn jvm warn出现次数
  jvm.metrics.maxMemoryM jvm试图使用最大内存(M),如果没有限制返回Long.MAX_VALUE
  jvm.metrics.memHeapCommittedM jvm提交堆内存大小
  jvm.metrics.memHeapUsedM jvm使用堆内存大小
  jvm.metrics.memNonHeapCommittedM jvm非堆内存已提交大小
  jvm.metrics.memNonHeapUsedM jvm非堆内存已使用大小
  jvm.metrics.threadsBlocked 正在阻塞等待监视器锁的线程数目
  jvm.metrics.threadsNew 尚未启动的线程数目
  jvm.metrics.threadsRunnable 正在执行状态的线程数目
  jvm.metrics.threadsTerminated 已退出线程数目 
  jvm.metrics.threadsTimedWaiting 等待另一个线程执行取决于指定等待时间的操作的线程数目
  jvm.metrics.threadsWaiting 无限期地等待另一个线程来执行某一特定操作的线程数目
  rpc.metrics.NumOpenConnections                     number of open connections rpc连接打开的数目
  rpc.metrics.ReceivedBytes                          number of bytes received rpc收到的字节数 
  rpc.metrics.RpcProcessingTime_avg_time             Average time for RPC Operations in last interval rpc在最近的交互中平均操作时间                   
  rpc.metrics.RpcProcessingTime_num_ops              rpc在最近的交互中连接数目 
  rpc.metrics.RpcQueueTime_avg_time                  The Average RPC Operation Queued Time in the last interval rpc在最近的交互中平均等待时间 
  rpc.metrics.RpcQueueTime_num_ops                   在CDH3B4中未找到该属性。本人理解为rpc在最近的交互中等待操作数目 
  rpc.metrics.SentBytes                              number of bytes sent  rpc发送的数据字节
  rpc.metrics.callQueueLen                           length of the rpc queue  rpc 队列长度
  rpc.metrics.rpcAuthenticationFailures              number of failed authentications  rpc 验证失败次数
  rpc.metrics.rpcAuthenticationSuccesses             number of successful authentications   验证成功数
  rpc.metrics.rpcAuthorizationFailures               number of failed authorizations   授权失败次数
  rpc.metrics.rpcAuthorizationSuccesses              number of successful authorizations  成功次数
  mapred.shuffleInput.shuffle_failed_fetches     从map输出中取数据过程中获取失败次数     
  mapred.shuffleInput.shuffle_fetchers_busy_percent   在获取map输出过程中并行获取线程忙碌占总并行获取线程百分比
  mapred.shuffleInput.shuffle_input_bytes              shuffle过程中读入数据字节
  mapred.shuffleInput.shuffle_success_fetches    从map输出中取数据过程中获取成功次数  
  mapred.shuffleOutput.shuffle_failed_outputs    向reduce发送map输出失败次数
  mapred.shuffleOutput.shuffle_handler_busy_percent    向reduce发送map输出中server线程忙碌占总工作线程(在tasktracker.http.threads中配置)百分比。
  mapred.shuffleOutput.shuffle_output_bytes            shuffle过程中输出数据字节
  mapred.shuffleOutput.shuffle_success_outputs         向reduce成功
  mapred.tasktracker.mapTaskSlots                设置map槽数
  mapred.tasktracker.maps_running                正在运行的map数
  mapred.tasktracker.reduceTaskSlots             设置reduce槽数
  mapred.tasktracker.reduces_running             正在运行的reduce数
  mapred.tasktracker.tasks_completed             完成任务数      
  mapred.tasktracker.tasks_failed_ping           因tasktracker与task交互失败导致的失败的task数目
  mapred.tasktracker.tasks_failed_timeout        因task未在mapred.task.timeout配置的(默认10分钟)时间内汇报进度而超时kill的task数目
  rpc.detailed-metrics.canCommit_avg_time        rpc询问是否提交任务平均时间
  rpc.detailed-metrics.canCommit_num_ops         rpc询问是否提交任务次数
  rpc.detailed-metrics.commitPending_avg_time    rpc报告任务提交完成,但是该提交仍然处于pending状态的平均时间
  rpc.detailed-metrics.commitPending_num_ops     rpc报告任务提交完成,但是该提交仍然处于pending状态的次数
  rpc.detailed-metrics.done_avg_time             rpc报告任务成功完成的平均时间
  rpc.detailed-metrics.done_num_ops              rpc报告任务成功完成的次数
  rpc.detailed-metrics.fatalError_avg_time       rpc报告任务出现fatalerror的平均时间
  rpc.detailed-metrics.fatalError_num_ops        rpc报告任务出现fatalerror的次数
  rpc.detailed-metrics.getBlockInfo_avg_time     从指定datanode获取block的平均时间
  rpc.detailed-metrics.getBlockInfo_num_ops      从指定datanode获取block的次数
  rpc.detailed-metrics.getMapCompletionEvents_avg_time  reduce获取已经完成的map输出地址事件的平均时间
  rpc.detailed-metrics.getMapCompletionEvents_num_ops   reduce获取已经完成的map输出地址事件的次数
  rpc.detailed-metrics.getProtocolVersion_avg_time      获取rpc协议版本信息的平均时间
  rpc.detailed-metrics.getProtocolVersion_num_ops       获取rpc协议版本信息的次数
  rpc.detailed-metrics.getTask_avg_time                 当子进程启动后,获取jvmtask的平均时间
  rpc.detailed-metrics.getTask_num_ops                  当子进程启动后,获取jvmtask的次数
  rpc.detailed-metrics.ping_avg_time                    子进程周期性的检测父进程是否还存活的平均时间 
  rpc.detailed-metrics.ping_num_ops                     子进程周期性的检测父进程是否还存活的次数
  rpc.detailed-metrics.recoverBlock_avg_time             为指定的block开始恢复标记生成的平均时间
  rpc.detailed-metrics.recoverBlock_num_ops              为指定的block开始恢复标记生成的次数
  rpc.detailed-metrics.reportDiagnosticInfo_avg_time     向父进程报告任务错误消息的平均时间,该操作应尽可能少,这些消息会在jobtracker中保存
  rpc.detailed-metrics.reportDiagnosticInfo_num_ops      向父进程报告任务错误消息的次数
  rpc.detailed-metrics.startBlockRecovery_avg_time       开始恢复block的平均时间
  rpc.detailed-metrics.startBlockRecovery_num_ops        开始恢复block的次数
  rpc.detailed-metrics.statusUpdate_avg_time             汇报子进程进度给父进程的平均时间
  rpc.detailed-metrics.statusUpdate_num_ops              汇报子进程进度给父进程的次数
  rpc.detailed-metrics.updateBlock_avg_time              更新block到新的标记及长度的平均操作时间
  rpc.detailed-metrics.updateBlock_num_ops               更新block到新的标记及长度的次数

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-311940-1-1.html 上篇帖子: Hadoop Ganglia Metric Item 下篇帖子: hbase、hadoop checksum相关
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表