设为首页 收藏本站
查看: 1915|回复: 0

[经验分享] Redis Cluster的noaddr标记

[复制链接]

尚未签到

发表于 2018-11-2 08:25:41 | 显示全部楼层 |阅读模式
  某业务Redis Cluster中一个节点的负载较高,要将其负责的部分slot迁移到另一个节点。查看集群状态时,出现了flags字段为noaddr的标记。
  192.168.1.4:2008> cluster nodes
  78641a9cf0098e1c5c07821266dcd1feae21bcd3 :0 slave,noaddr - 1530942381678 1530942361875 0 disconnected
  2122990aa0f8b5fae63b36d1a598e5194c72c0d0 :0 master,noaddr - 1530943527689 1530943524090 0 disconnected
  ...
  cluster nodes显示的每一行信息,由下面的字段组成。
            ...
  每个字段的含义如下:

  1.>  2. ip:port: 客户端访问的地址。
  3. flags: 逗号分隔的标记位,可能值有:myself, master, slave, fail?, fail, handshake, noaddr, noflags。
  4. master: 若是已知master节点的slave,这里出现的是master的节点ID,否则是"-"。
  5. ping-sent: 最近一次发送ping的unix毫秒时间戳,0代表没有发送过。
  6. pong-recv: 最近一次收到pong的unix毫秒时间戳。
  7. config-epoch: 该节点或其master节点的epoch值。每次故障转移都会生成一个新的,唯一的,递增的epoch值。若多个节点竞争相同的slot,epoch值大的获胜。
  8. link-state: 节点和集群总线间的连接状态,可以是connected或disconnected。
  9. slot: 该节点负责的slot。
  flags字段各标记含义如下:
  myself: 当前连接的节点。
  master: 节点是master。
  slave: 节点是slave。
  fail?: 节点处于pfail状态,当前节点无法和其联系,但其它节点可以。
  fail: 节点处于fail状态,大多数节点都无法和其联系,将其由pfail升级到fail状态。
  handshake: 还没完全加入集群,正在握手阶段。
  noaddr: 不知道节点地址。
  noflags: 没有任何标记。
  根据noaddr的含义,可知有此标记的节点属于无用节点,需将这些信息清除。由于无法连接节点,命令redis-trib.rb del-node host:port node_id无能为力了,只能使用CLUSTER FORGET node-id。
  当节点接收到CLUSTER FORGET node-id命令后,会把node-id指定的节点加入到禁用列表中,在禁用列表内的节点不再发送Gossip消息。禁用列表有效期为60秒,超过60秒节点会再次参与消息交换。也就是说第一次forget命令发出后,需60秒内在集群各节点上执行forget命令。可借助脚本完成整个过程,实现思路如下:
  1. 手动找到noaddr标记对应的node-id。
  2. 脚本内容。
  #!/bin/bash
  flags_noaddr_node_id="f2c9d6445359372bc7efbe16e53cdaa2d7b38923"
  ip_port=$(redis-cli -h 192.168.1.4 -p 2008 cluster nodes | egrep -v 'noaddr|handshake|fail' | awk '{print $2}')
  for i in $ip_port
  do
  eval $(echo $i | awk -F: '{printf("ip=%s;port=%s",$1,$2)}')
  redis-cli -h $ip -p $port cluster forget $flags_noaddr_node_id
  #flags_noaddr_node_id=$(redis-cli -h $ip -p $port cluster nodes | grep 'noaddr' | awk '{print $1; exit; }')
  #test -n "$flags_noaddr_node_id" && echo $ip, $port, $flags_noaddr_node_id
  done
  另,此组集群同时还遇到了handshake标记,若按上述思路处理是不行的,发现node-id会变化。
  a7cdf970443175c75d53106ddbaec7c23876d66e 192.168.1.6:2008 handshake - 1533610367224 0 0 disconnected
  011f3b9f9459c74cea0da37632bfc10ff99b426c 192.168.1.6:2008 handshake - 1533610420268 0 0 disconnected
  其实,此处handshake是由fail?引起的,按上述思路处理了fail?,handshake会稍后消失,至此整个集群的状态正常了。
  f2c9d6445359372bc7efbe16e53cdaa2d7b38923 192.168.1.6:2008 slave,fail? c274d9bbea72ca627b2e4795317af46c81755f9c 1531106329711 1531106032261 37 disconnected
  至于node-id发生变化的原因,可参考这两个链接。
  https://github.com/antirez/redis/issues/2965
  https://githubmota.github.io/2018/06/15/TODO/
  若感兴趣可关注订阅号”数据库最佳实践”(DBBestPractice).
DSC0000.jpg



运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-629603-1-1.html 上篇帖子: Redis优化:启动警告问题的解决(必须做的操作) 下篇帖子: redis读写一致性遇到的问题
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表