设为首页 收藏本站
查看: 1396|回复: 0

[经验分享] 11gR2 新特性:Oracle Cluster Hea…

[复制链接]

尚未签到

发表于 2016-8-5 10:12:01 | 显示全部楼层 |阅读模式
11gR2 新特性:OracleCluster Health Monitor(CHM)简介
https://blogs.oracle.com/Database4CN/entry/11gr2_新特性_oracle_cluster_healthBy JaneZhang(张建英) on 六月 15, 2012
  

  Cluster HealthMonitor(以下简称CHM)是一个Oracle提供的工具,用来自动收集操作系统的资源(CPU、内存、SWAP、进程、I/O以及网络等)的使用情况。CHM会每秒收集一次数据。

这些系统资源数据对于诊断集群系统的节点重启、Hang、实例驱逐(Eviction)、性能问题等是非常有帮助的。另外,用户可以使用CHM来及早发现一些系统负载高、内存异常等问题,从而避免产生更严重的问题。

CHM会自动安装在下面的软件:
11.2.0.2 及更高版本的 Oracle Grid Infrastructure for Linux (不包括LinuxItanium) 、Solaris (Sparc 64 和 x86-64)
11.2.0.3 及更高版本 Oracle Grid Infrastructure for AIX 、 Windows(不包括Windows Itanium)。

在集群中,可以通过下面的命令查看CHM对应的资源(ora.crf)的状态:
$ crsctl stat res -t-init
--------------------------------------------------------------------------------
NAME TARGET STATE SERVER STATE_DETAILSCluster Resources
ora.crf ONLINE ONLINE rac1


CHM主要包括两个服务:
1). System MonitorService(osysmond):这个服务在所有节点都会运行,osysmond会将每个节点的资源使用情况发送给clusterlogger service,后者将会把所有节点的信息都接收并保存到CHM的资料库。
$ ps -ef|greposysmond
root 7984 1 0 Jun05 ? 01:16:14/u01/app/11.2.0/grid/bin/osysmond.bin

2). Cluster Logger Service(ologgerd):在一个集群中的,ologgerd会有一个主机点(master),还有一个备节点(standby)。当ologgerd在当前的节点遇到问题无法启动后,它会在备用节点启用。

主节点:
$ ps -ef|grepologgerd
root 8257 1 0 Jun05 ? 00:38:26/u01/app/11.2.0/grid/bin/ologgerd -M -d/u01/app/11.2.0/grid/crf/db/rac2

备节点:
$ ps -ef|grepologgerd
root 8353 1 0 Jun05 ? 00:18:47/u01/app/11.2.0/grid/bin/ologgerd -m rac2 -r -d
/u01/app/11.2.0/grid/crf/db/rac1

CHM Repository:用于存放收集到数据,默认情况下,会存在于Grid Infrastructure home下 ,需要1 GB 的磁盘空间,每个节点大约每天会占用0.5GB的空间。您可以使用OCLUMON来调整它的存放路径以及允许的空间大小(最多只能保存3天的数据)。

下面的命令用来查看它当前设置:
$ oclumon manage -getreppath
CHM Repository Path =/u01/app/11.2.0/grid/crf/db/rac2
Done

$ oclumon manage -getrepsize
CHM Repository Size = 68082<====单位为秒
Done

修改路径:
$ oclumon manage -repos reploc/shared/oracle/chm

修改大小:
$ oclumon manage -repos resize 68083<==在3600(小时) 到259200(3天)之间
rac1 --> retentioncheck successful
New retention is 68083 and will use1073750609 bytes of disk space
CRS-9115-Cluster Health Monitorrepository size change completed on all nodes.
Done

获得CHM生成的数据的方法有两种:
1. 一种是使用Grid_home/bin/diagcollection.pl:
1). 首先,确定cluster logger service的主节点:
$ oclumon manage -getmaster
Master = rac2

  2).用root身份在主节点rac2执行下面的命令:
#<Grid_home>/bin/diagcollection.pl-collect -chmos -incidenttime inc_time -incidentdurationduration
inc_time是指从什么时间开始获得数据,格式为MM/DD/YYYY24HH:MM:SS,duration指的是获得开始时间后多长时间的数据。

比如:# diagcollection.pl -collect-crshome /u01/app/11.2.0/grid -chmoshome /u01/app/11.2.0/grid-chmos -incidenttime 06/15/201215:30:00 -incidentduration00:05

3).运行这个命令之后,CHM的数据会生成在文件chmosData_rac2_20120615_1537.tar.gz。

2. 另外一种获得CHM生成的数据的方法为oclumon:
$oclumon dumpnodeview [[-allnodes] |[-n node1 node2] [-last "duration"] | [-s "time_stamp" -e"time_stamp"] [-v] [-warning]] [-h]

-s表示开始时间,-e表示结束时间
$ oclumon dumpnodeview -allnodes -v -s"2012-06-15 07:40:00" -e "2012-06-15 07:57:00" >/tmp/chm1.txt

$ oclumon dumpnodeview -n node1 node2node3 -last "12:00:00">/tmp/chm1.txt
$ oclumon dumpnodeview -allnodes -last"00:15:00" >/tmp/chm1.txt


下面是/tmp/chm1.txt中的部分内容:
----------------------------------------
Node: rac1 Clock: '06-15-12 07.40.01'SerialNo:168880
----------------------------------------

SYSTEM:
#cpus: 1 cpu: 17.96 cpuq: 5physmemfree: 32240 physmemtotal: 2065856 mcache: 1064024 swapfree:3988376 swaptotal: 4192956 ior: 57 io
w: 59 ios: 10 swpin: 0 swpout: 0 pgin:57 pgout: 59 netr: 65.767 netw: 34.871 procs: 183 rtprocs: 10 #fds:4902 #sysfdlimit: 6815744
#disks: 4 #nics: 3 nicErrors:0

TOP CONSUMERS:
topcpu: 'mrtg(32385) 64.70'topprivmem: 'ologgerd(8353) 84068' topshm: 'oracle(8760) 329452'topfd: 'ohasd.bin(6627) 720' topthread:
'crsd.bin(8235) 44'

PROCESSES:

name: 'mrtg' pid: 32385 #procfdlimit:65536 cpuusage: 64.70 privmem: 1160 shm: 1584 #fd: 5 #threads: 1priority: 20 nice: 0
name: 'oracle' pid: 32381#procfdlimit: 65536 cpuusage: 0.29 privmem: 1456 shm: 12444 #fd: 32#threads: 1 priority: 15 nice: 0
...
name: 'oracle' pid: 8756 #procfdlimit:65536 cpuusage: 0.0 privmem: 2892 shm: 24356 #fd: 47 #threads: 1priority: 16 nice: 0

----------------------------------------
Node: rac2 Clock: '06-15-12 07.40.02'SerialNo:168878
----------------------------------------

SYSTEM:
#cpus: 1 cpu: 40.72 cpuq: 8physmemfree: 34072 physmemtotal: 2065856 mcache: 1005636 swapfree:3991808 swaptotal: 4192956 ior: 54 io
w: 104 ios: 11 swpin: 0 swpout: 0pgin: 54 pgout: 104 netr: 77.817 netw: 33.008 procs: 178 rtprocs:10 #fds: 4948 #sysfdlimit: 68157
44 #disks: 4 #nics: 4 nicErrors:0

TOP CONSUMERS:
topcpu: 'orarootagent.bi(8490) 1.59'topprivmem: 'ologgerd(8257) 83108' topshm: 'oracle(8873) 324868'topfd: 'ohasd.bin(6744) 720' t
opthread: 'crsd.bin(8362)47'

PROCESSES:

name: 'oracle' pid: 9040 #procfdlimit:65536 cpuusage: 0.19 privmem: 6040 shm: 121712 #fd: 33 #threads: 1priority: 16 nice: 0
...


关于CHM的更多解释,请参考Oracle官方文档:
http://docs.oracle.com/cd/E11882_01/rac.112/e16794/troubleshoot.htm#CWADD92242
Oracle® Clusterware Administration and Deployment Guide
11g Release 2 (11.2)
Part Number E16794-17

或者 My Oracle Support文档:
Cluster Health Monitor (CHM) FAQ (Doc ID1328466.1)

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-253175-1-1.html 上篇帖子: 用Java实现Oracle数据库增删集合元素 下篇帖子: Oracle 10G重建EM DB Control.
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表