利用Heartbeat实现http+nfs高可用集群

龍子发表于 2019-1-7 08:19:38

　　说不多说；看图所示，见下面操作；
http://s3.运维网.com/wyfs02/M02/25/39/wKiom1NabtfTnhKJAAFb880FtAQ201.jpg
　　

本次环境系统全部为；CentOS-6.5-64位
IP地址全部是图中所示；

配置两个节点相互解析；
node1;
# cat /etc/hosts
172.16.34.4node1.yang.com node1
172.16.34.6node2.yang.com node2
node2;

# cat /etc/hosts
172.16.34.4node1.yang.com node1
172.16.34.6node2.yang.com node2

　　两个节点间配置ssh相互通信；
node1:
# ssh-keygen -t rsa -f .ssh/id_rsa -P ''
# ssh-copy-id -i .ssh/id_rsa.pub root@node2.yang.com
时间同步；
# ssh node2 'date'; date
Thu Apr 24 23:22:24 CST 2014
Thu Apr 24 23:22:23 CST 2014

node2:
# ssh-keygen -t rsa -f .ssh/id_rsa -P ''
# ssh-copy-id -i .ssh/id_rsa.pub root@node1.yang.com
时间同步；
# ssh node1 'date';date
Thu Apr 24 23:22:43 CST 2014
　　Thu Apr 24 23:22:43 CST 2014
　　

两节点都需要安装如下相关软件；
安装软件包；
#yum install -y perl-TimeDate net-snmp-libs libnet PyXML
#heartbeat-2.1.4-12.el6.x86_64.rpm
#heartbeat-stonith-2.1.4-12.el6.x86_64.rpm
#heartbeat-pils-2.1.4-12.el6.x86_64.rpm
#rpm -ivh heartbeat-2.1.4-12.el6.x86_64.rpm heartbeat-stonith-2.1.4-12.el6.x86_64.rpm heartbeat-pils-2.1.4-12.el6.x86_64.rpm

heartbeat心跳信息传递是基于udp协议的694端口监听的；传输方式可以是单播，多播以及组
播，还可以是基于于串行线缆传输心跳信号；

安装好的heartbeat默认是没有配置文件的，但是提供了配置文件的样本，因此是需把样本
文件复制到/etc/ha.d/目录下即可；
样本文件在；/usr/share/doc/heartbeat-2.1.4
http://s3.运维网.com/wyfs02/M01/25/3A/wKioL1Nab6qCMh5AAAF2-J9RoXg722.jpg
把图中红色标记的文件复制到/etc/ha.d/目录下；
cp authkeys haresources ha.cf /etc/ha.d/
authkeys；是用于节点之间认证的key文件，只有通过认证的服务器方可加入到本集群当中；
ha.cf 是heartbeat的主配置文件
haresources 是定义集群资源管理的配置文件

下面将对其进行配置；
#openssl rand -hex 8 生成16位随机密码串
56d035b015f1b0f9
vim authkeys文件将生成的密码串加入当中
http://s3.运维网.com/wyfs02/M02/25/39/wKiom1NacB-gMjEKAAAzNB7iuwU059.jpg

修改此密钥文件的权限为600
chmod 600 authkeys

定义主配置文件；如下；
#vim ha.cf
logfile /var/log/ha-log 指名heartbeat的日志文件存放位置
keepalive 1000ms 指定心跳使用间隔的时间，单位为秒
deadtime 10 指定备用节点在规定的时间内如果没有收到主节点的心跳信号后，则立即接管主节点的服务资源
warntime 5 指定心跳的延迟时间
udppost 694 监听端口
mcast eth0 225.0.0.1 694 1 0 采用网卡eth0的udp多播来组织心跳
auto_failback on 用来定义主节点恢复后。是否将服务自动切回，一般正常的情况下是由主节点来响应运行所有的服务，只有当主节点故障时，备用节点会自动接管主节点所运行的服务。该选项on为启动自动转回
node node1.yang.com 定义两个集群节点
node node2.yang.com

compression bz2 对传输的数据进行压缩，可选项
compression_threshold 2 表示如果小于2k将不压缩

在两个集群节点上分别安装上http服务对其进行访问测试；
#yum install -y httpd
node1:
#echo "node1.google.com.hk" > /var/www/html/index.html
node2:
#echo "node2.google.com.bj" > /var/www/html/index.html
再做高可以集群时，各节点上的服务都是统一由集群资源管理器来管理调度的，因此不能把服务设置成开机自动启动；
#ssh node2 "chkconfig httpd off";chkconfig httpd off

定义集群资源管理器；
#vim /etc/ha.d/
# grep 'node1' haresources
node1.yang.com172.16.34.100/16/eth0 httpd

node1.yang.com表示集群更倾向于哪一个节点；
172.16.34.100/16/eth0表示此集群资源ip地址及网卡
httpd表示定义此集群资源服务为httpd
通过集群ip访问http服务时，会优先访问到node1节点上的http服务，而如果此节点down机了，则会自动转移到node2上。最后node1节点又上线了，还可将资源重新夺回来。

定义完上述三个配置文件后，将其三个文件复制到node2节点上
#scp -r ha.cf authkeys haresources node2:/etc/ha.d/
到node2节点上查看文件是否同步成功；

http://s3.运维网.com/wyfs02/M00/25/3A/wKioL1NacG2yink0AACHrTCPfcE107.jpg
　　

　　一切配置ok,启动集群管理器；
http://s3.运维网.com/wyfs02/M02/25/39/wKiom1NacJeDHCxVAAFZuMzo-Sg160.jpg
　　

　　查看node1的集群IP是否添加成功；
　　http://s3.运维网.com/wyfs02/M01/25/3A/wKioL1NacLSxDBK5AATBzM3tS5M178.jpg
测试访问web服务；如下；

http://s3.运维网.com/wyfs02/M02/25/3A/wKioL1NacOmSp6bEAACFgGKoIKM676.jpg
故障演试，模拟node1下线，看是否会成功将集群资源转移到nod2节点了；如下
http://s3.运维网.com/wyfs02/M01/25/3A/wKioL1NacTbxWtWqAARww1lroMw329.jpg
到node2节点上查看；

http://s3.运维网.com/wyfs02/M01/25/3A/wKioL1NacVazkTuoAATD4ssVtbw046.jpg
再次测试；此时显示的node2上的web首页，这里只是测试环境，特意把两个节点上的web页面设置成不一样。在真实的生产环境中各节点间的页面需一致；
http://s3.运维网.com/wyfs02/M01/25/3A/wKiom1Nacb7gWh_EAACDrPssyV0078.jpg
由上述测试显示集群已经成功转移至node2上，从而实现了web的高可用

为上述web集群提供一个共享存储，让主节点与从节点共享一个文件服务器，当主节点提供服务时，文件服务器是挂载在主节点上，如果主节点故障了，从节点会接管主节点继续提供服务。
配置NFS服务器；
http://s3.运维网.com/wyfs02/M00/25/3A/wKioL1Nacg6iMqwOAAQLYra50XQ353.jpg

停止两个集群节点；
在node1节点上修改/etc/ha.d/haresources
## grep "node1" haresources
node1.yang.com172.16.34.100/16/eth0 httpd Filesystem::172.16.34.10:/www/share::/var/www/html::nfs httpd
多个资源间是有先后顺序的，必须要按其顺序来引用资源代理，比如此处：
如果httpd要使用nfs文件系统，就必须先挂载后使用
Filesystem::172.16.34.10:/www/share::/var/www/html::nfs
参数传递间隔符是::资源代理的名字必须要与资源代理（脚本）名相同，区分大小写
第一段表示资源代理的类型
第二段表示为运端的NFS文件共享的目录
第三段表示要挂载的位置
第四段为文件系统的类型

启动heartbeat；
# ssh node2 'service heartbeat start';service heartbeat start
http://s3.运维网.com/wyfs02/M02/25/3A/wKiom1Nacl3gmB6aAATDZPUr-WA131.jpg

测试；
http://s3.运维网.com/wyfs02/M01/25/3A/wKioL1Nacmqy1BZjAACGrt2dKEw976.jpg

模拟故障，再次把node1节点下线；
在node2节点上查看IP；如下；
http://s3.运维网.com/wyfs02/M00/25/3A/wKioL1NacojCSEiIAATbSfEpGVo869.jpg

再次测试如下；
http://s3.运维网.com/wyfs02/M00/25/3A/wKiom1NacsvzLE66AACHC9iEzOk404.jpg

　　

页: [1]

运维网's Archiver

利用Heartbeat实现http+nfs高可用集群