发表于 2018-11-2 08:37:13

Redis的集群(故障转移)

  Redis集群自身实现了高可用,当集群内少量节点出现故障时通过自动故障转移保证集群可以正常对外提供服务。
  故障发现
  1. 主观下线
  当cluster-node-timeout时间内某节点无法与另一个节点顺利完成ping消息通信时,则将该节点标记为主观下线状态。
  2. 客观下线
  当某个节点判断另一个节点主观下线后,该节点的下线报告会通过Gossip消息传播。当接收节点发现消息体中含有主观下线的节点,其会尝试对该节点进行客观下线,依据下线报告是否在有效期内(如果在cluster-node-timeout*2时间内无法收集到一半以上槽节点的下线报告,那么之前的下线报告会过期),且数量大于槽节点总数的一半。若是,则将该节点更新为客观下线,并向集群广播下线节点的fail消息。
  故障恢复
  故障节点变为客观下线后,如果下线节点是持有槽的主节点,则需要在它的从节点中选出一个替换它,从而保证集群的高可用,过程如下:
  1. 资格检查
  每个从节点都要检查最后与主节点断线时间,判断是否有资格替换故障的主节点。如果从节点与主节点断线时间超过cluster-node-timeout*cluster-slave-validity-factor,则当前从节点不具备故障转移资格。
  2. 准备选举时间
  从节点符合故障转移资格后,更新触发故障选举时间,只有到达该时间才能执行后续流程。采用延迟触发机制,主要是对多个从节点使用不同的延迟选举时间来支持优先级。复制偏移量越大说明从节点延迟越低,那么它应该具有更高的优先级。
  3. 发起选举
  当从节点到达故障选举时间后,会触发选举流程:
  (1) 更新配置纪元
  配置纪元是一个只增不减的整数,每个主节点自身维护一个配置纪元,标示当前主节点的版本,所有主节点的配置纪元都不相等,从节点会复制主节点的配置纪元。整个集群又维护一个全局的配置纪元,用于记录集群内所有主节点配置纪元的最大版本。每次集群发生重大事件,如新加入主节点或由从节点转换而来,从节点竞争选举,都会递增集群全局配置纪元并赋值给相关主节点,用于记录这一关键事件。
  (2) 广播选举消息
  在集群内广播选举消息,并记录已发送过消息的状态,保证该从节点在一个配置纪元内只能发起一次选举。
  4. 选举投票
  只有持有槽的主节点才会处理故障选举消息,每个持有槽的节点在一个配置纪元内都有唯一的一张选票,当接到第一个请求投票的从节点消息,回复消息作为投票,之后相同配置纪元内其它从节点的选举消息将忽略。投票过程其实是一个领导者选举的过程。
  每个配置纪元代表了一次选举周期,如果在开始投票后的cluster-node-timeout*2时间内从节点没有获取足够数量的投票,则本次选举作废。从节点对配置纪元自增并发起下一轮投票,直到选举成功为止。
  5. 替换主节点
  当前从节点取消复制变为主节点,撤销故障主节点负责的槽,把这些槽委派给自己,并向集群广播告知所有节点当前从节点变为主节点。
  故障转移时间
  1. 主观下线识别时间=cluster-node-timeout。
  2. 主观下线状态消息传播时间
页: [1]
查看完整版本: Redis的集群(故障转移)