设为首页 收藏本站
查看: 634|回复: 0

[经验分享] zookeeper的数据存储和同步

[复制链接]

尚未签到

发表于 2017-4-19 10:55:42 | 显示全部楼层 |阅读模式
一,zookeeper中的文件存储及相关配置
zookeeper启动后,会将所有数据加载到内存中,但是也会在硬盘上留下数据文件和日志文件便于恢复。在配置文件中,有如下的一些参数与文件相关:

  • dataDir:保存内存快照数据的目录;
  • dataLogDir:保存 transaction log的目录;
  • globalOutstandingLimit :单台服务器上未完成的最大客户端请求数(当客户端发送请求太快而集群来不及处理时),默认1000.
  • preAllocSize:transaction log预设的文件大小,默认是64M,
  • snapCount:进行快照的阀值,默认10000;当transaction log条数达到 snapCount/2 + rand.nextInt(snapCount/2)时就做一次快照,使用随机数的原因是避免所有服务器会同时做快照
zookeeper的快照数据保存在$dataDir中,文件的命名格式为:snapshot.{16进制串},其中16进制串是lastZxid转换后的值。相关序列化和反序列化的类可以看{org.apache.zookeeper.server.persistence.FileSnap},快照文件中的内容包括文件头信息,DataTree数据及一些session数据。
事物日志则保存在$dataLogDir中,日志文件的命名格式类似与snapshot:log.{16进制串},相关读写的类可以见{org.apache.zookeeper.server.persistence.FileTxnLog}。日志文件中的数据格式稍微复杂一点,如代码注释中所述:

  • The format of a Transactional log is as follows:
  • *
  • <blockquote>
  • <pre> * LogFile:
  • *     FileHeader TxnList ZeroPad
  • *
  • FileHeader{
  • *     magic 4bytes (ZKLG)
  • *     version 4bytes
  • *     dbid 8bytes
  • *   }
  • *
  • TxnList:
  • *     Txn || Txn TxnList
  • *
  • Txn:
  • *     checksum Txnlen TxnHeader Record 0x42
  • *
  • checksum8bytes Adler32 is currently used
  • *   calculated across payload -- TxnlenTxnHeaderRecord and 0x42
  • *
  • Txnlen:
  • *     len 4bytes
  • *
  • TxnHeader{
  • *     sessionid 8bytes
  • *     cxid 4bytes
  • *     zxid 8bytes
  • *     time 8bytes
  • *     type 4bytes
  • *   }
  • *
  • Record:
  • *     See Jute definition file for details on the various record types
  • *
  • ZeroPad:
  • *     0 padded to EOF (filled during preallocation stage)

如果需要分析日志文件的话,可以考虑对FileTxnLog和FileTxnIterator做简单修改来暴露数据读取接口。
二,zookeeper的数据恢复过程
当进行一次快照时,就会重新生成一个新的日志文件,二者结合可以把数据恢复(断点+动作重放),启动时数据恢复的具体的逻辑在{org.apache.zookeeper.server.persistence.FileTxnSnapLog}中:

  • snapLog.deserialize(dtsessions);
  • FileTxnLog txnLog = new FileTxnLog(dataDir);
  • TxnIterator itr = txnLog.read(dt.lastProcessedZxid+1);
  • long highestZxid = dt.lastProcessedZxid;

代码中先读取快照数据生成断点映像,然后根据断点映像中最大zxid开始进行事务重放
三,zookeeper节点间的数据同步
当各个节点已经自我恢复并选举出leader后,leader就开始和follows进行数据同步了,具体的逻辑可以见{org.apache.zookeeper.server.quorum.LearnerHandler}中:
leader构建NEWLEADER包,内含leader最大数据的zxid, 广播给follows,然后leader根据follower数量为每个follower创建一个LearnerHandler线程来处理同步请求:leader主线程阻塞,等待超过半数follower同步完数据之后成为正式leader。
follower接收到NEWLEADER包后响应FOLLOWERINFO给leader,告知本方数据最大的zxid值; leader接收到回馈后开始判断:

  • 如果follower和leader数据一致,则直接发送DIFF告知已经同步;
  • 判断这一阶段内有无已经北提交的决议值,如果有,那么
    a) 如果有部分数据没有同步,leader发送DIFF包将有差异的数据同步过去,同时将follower没有的数据逐个发送commit包给follower要求记录下来;
    b) 如果follower数据zxid更大,发送TRUNC包给follower要求删除多余数据
  • 如果这一阶段没有提交的决议,直接发送SNAP包将快照同步给follower
以上消息完毕后,LEADER发送UPTODATE包告知follower当前数据已同步,等待follower的ACK完成同步过程。

本文出自 溪木镇的铁匠铺,转载时请注明出处及相应链接。
本文永久链接: http://www.zhouyoudao.com/zookeeper-data

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-366296-1-1.html 上篇帖子: ZooKeeper与Diamond有什么不一样 下篇帖子: 基于zookeeper的分布式lock实现
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表