设为首页 收藏本站
查看: 575|回复: 0

[经验分享] 记一次因网卡心跳故障引发RAC节点重启故障分析

[复制链接]
累计签到:1 天
连续签到:1 天
发表于 2014-7-15 09:14:36 | 显示全部楼层 |阅读模式
数据库与CRS版本:10.2.0.4
down机过程分析
序号
节点
时间
动作
日志源
1

Jul 4 22:48:15
XXdb2 kernel: NETDEV WATCHDOG: eth1: transmit timed out
bnx2: fw sync timeout, reset code = 1020015
OS
2

Jul 4 22:48:29
--
Jul 4 22:49
CRS-1612:node XXdb1 (1) at 50% heartbeat fatal, eviction in 29.118 seconds
]CRS-1610:node XXdb1 (1) at 90% heartbeat fatal, eviction in 5.128 seconds
CRS
3

Jul 4 22:54:14
XXdb2 syslogd 1.4.1: restart
OS
4

Jul 4 22:54:14
XXdb2 ifup: Device eth1 has different MAC address than expected, ignoring.
XXdb2 network: Bringing up interface eth1:  failed
OS
5

Jul  5 01:22:27 -- Jul  5 01:58:49
XXdb2 logger: Cluster Ready Services waiting on dependencies. Diagnostics in /tmp/crsctl.5659
OS
6

Jul 5 01:59:30
XXdb2 shutdown: shutting down for system reboot
OS
7

Jul 5 03:00:08
CRS-1605:CSSD voting file is online: /dev/raw/raw18. Details in /home/oracle/product/10.2.0/crs/log/XXdb2/cssd/ocssd.log
CRS
8

Jul 4 23:00:00
CRS-1612:node XXdb2 (2) at 50% heartbeat fatal, eviction in 29.144 seconds
CRS
9

Jul  4 23:04:55
XXdb1 syslogd 1.4.1: restart
OS
从上面日志来看,整个故障过程如下:
(1) 第二节点操作系统发现eth1(心跳网卡)网络超时,随后第二节点数据库连接第一节点超时,超时4次之后,第二节点数据库强制重启操作系统
(2) 第二节点重启后, eth1起不来,导致CRS等待资源启动中,而也无法启动,CRS日志中的/tmp/crsctl.5659中记录是在等待内部心跳网卡的启动
(3) 第二节点被重启后,第一节点连接第二节点心跳超时,第一节点强制重启操作系统
(4) 问题的源头源于第二节点的心跳网络出现故障所致,并且第二节点因为eth1网卡的运行mac地址与实际mac地址不相符而导致重启服务器后eth1网卡启不来


本文作者:踩点,从事”系统架构、操作系统、存储设备、数据库、中间件、应用程序“六个层面系统性的性能优化工作

欢迎加入 系统性能优化专业群 ,共同探讨性能优化技术。群号:258187244



运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-22038-1-1.html 上篇帖子: PLSQL 定义record记录 下篇帖子: 相同更改数据量的前提下,单次COMMIT和多次COMMIT对日志空 网卡
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表