设为首页 收藏本站
查看: 1567|回复: 0

[经验分享] Heartbeat中Watchdog和Softdog的使用

[复制链接]

尚未签到

发表于 2015-11-21 11:24:55 | 显示全部楼层 |阅读模式

内核有它自己的方法处理挂起的系统,叫做watchdog,watchdog只是一个内核模块,它检查计时器确定系统是健康的,如果watchdog认为内核挂起,它可能做出激烈的响应,如重启系统,如果你想保护你的高可用服务器配置,服务器挂起时导致服务中断,Heartbeat也检测不到,你应该在你的内核中启用watchdog。


注意:这里我们讨论的是服务器挂起而不是应用程序问题,Heartbeat(在编写本书时Heartbeat 2之前的版本还不可用)不会监视它控制的资源或应用程序,看其是否健康 -- 要监视必须使用另一个软件包,如Mon,将在第四部分中详细讨论它。


正常情况下,连接到系统的watchdog设备允许内核判断系统是否挂起(当内核看不到外部的计时器设备正确地更新时,它就知道出现某些错误了)。


watchdog代码也支持用软件替换外部的硬件计时器,该软件叫做softdog,softdog维护一个内部计时器,在另一个进程写入/dev/watchdog设备文件时更新,如果softdog没有看到进程写入/dev/watchdog文件,它认为内核一定出故障了,它将启动一个内核恐慌,正常情况下,内核恐慌将导致系统关闭,但是你可以修改这个默认行为,将其改为默认行为为重启系统。


在内核中启用Watchdog


要在内核中启用watchdog,首先你需要确定softdog模块已经编译进内核了。


注意:在一个正常的Red Hat或SuSe发行版上你不需要将watchdog添加到内核,因为标准发布的版本Red Hat内核已经包括了一个已经编译好的softdog模块的副本。


如果你从源代码编译的内核,从/usr/src/linux目录运行makemenu config命令,在下面的子菜单中检查或启用“Software Watchdog”选项:



Character Devices【字符设备】
Watchdog Cards --->【watchdog插件】
  • Watchdog Timer Support【watchdog计时器支持】
    [M] Software Watchdog (NEW)【软件watchdog(新)】





    如果在内核中这个选项没有被选中,按照第3章中描述的步骤重新编译并安装你的新内核,如果你正在使用Red Hat提供的标准模块内核(或如果你刚刚编译完你自己的内核,并启用了software watchdog支持),输入下面的命令确定该模块是否载入了当前运行的内核:



    #insmod softdog
    #lsmod





    你应该看到列出了softdog,正常情况下,如果你在/etc/ha.d/ha.cf中启用了watchdog支持,Heartbeat开关(init)脚本将为你插入这个模块,假设启用了watchdog,现在你应该从内核中移除它,并允许Heartbeat在它启动时为你添加,使用下面的命令从内核中移除softdog:



    #modprobe -r softdog




    内核恐慌 -- 挂起还是重启?


    在内核恐慌时要强制系统重启而不是暂停,需要修改传递给内核的启动参数,在使用LILO启动装入程序的系统上,编辑/etc/lilo.conf文件,在“image=”行前增加下面这样一行内容:



    append="panic=60"





    www.ixdba.net








    然后运行:



    #lilo -v




    也可以使用下面的命令:



    #echo 60 > /proc/sys/kernel/panic




    配置Heartbeat支持Watchdog


    除使用我们刚刚描述的(作为服务器正常配置的一部分,在系统挂起时提升它的可靠性)softdog计时器之外,你可以告诉Heartbeat更新softdog计时器,这让watchdog知道Heartbeat正在运行并很健康,如果计时器没有更新,watchdog将通知并强制内核恐慌,实际上,我们是告诉watchdog观察Heartbeat。


    注意:使用Heartbeat 1.2.3时,你可以用apphbd观察Heartbeat,然后让watchdog观察apphbd。


    当你在/etc/ha.d/ha.cf文件中启用了watchdog选项后,Heartbeat将每隔相当于deadtime长的时间写入/dev/watchdog文件(或设备),因此,出现任何导致Heartbeat更新watchdog设备失败的事情,一旦watchdog超时周期(默认是一分钟)过期,watchdog将启动内核恐慌。




    #vi /etc/ha.d/ha.cf




    取消下面这一行的注释符号:



    watchdog /dev/watchdog





    重启Heartbeat,让Heartbeat开关(init)脚本准确地配置watchdog设备:



    #service heartbeat restart




    当你运行下面的命令时你应该看到softdog:



    #lsmod




    注意:你应该在所有Heartbeat服务器上做这个事情,以便保持所有的Heartbeat配置是一致的。


    要测试watchdog的行为,在主服务器上使用下面的命令杀掉所有的正在运行的Heartbeat守护进程:



    #killall -9 heartbeat





    你应该在系统终端和/var/log/messages文件中看到下面的警告消息:



    Softdog: WDT device closed unexpectedly. WDT will not stop!





    这个错误告诉你内核将恐慌,你的系统应该重启

  • 运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
    2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
    3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
    4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
    5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
    6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
    7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
    8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

    所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-141784-1-1.html 上篇帖子: 如何使用Heartbeat,组建一个高可用性的mysql集群 下篇帖子: Heartbeat中Watchdog的使用
    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则

    扫码加入运维网微信交流群X

    扫码加入运维网微信交流群

    扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

    扫描微信二维码查看详情

    客服E-mail:kefu@iyunv.com 客服QQ:1061981298


    QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


    提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


    本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



    合作伙伴: 青云cloud

    快速回复 返回顶部 返回列表