设为首页 收藏本站
查看: 1075|回复: 0

[经验分享] Hadoop2.7.1配置NameNode+ResourceManager高可用原理分析

[复制链接]

尚未签到

发表于 2018-10-30 07:57:43 | 显示全部楼层 |阅读模式
  关于NameNode高可靠需要配置的文件有core-site.xml和hdfs-site.xml
  关于ResourceManager高可靠需要配置的文件有yarn-site.xml
  逻辑结构:

  NameNode-HA工作原理:
  在一个典型的HA集群中,最好有2台独立的机器的来配置NameNode角色,无论在任何时候,集群中只能有一个NameNode作为Active状态,而另一个是Standby状态,Active状态的NameNode负责集群中所有的客户端操作,这么设置的目的,其实HDFS底层的机制是有关系的,同一时刻一个文件,只允许一个写入方占用,如果出现多个,那么文件偏移量便会混乱,从而导致数据格式不可用,当然状态为Standby的NameNode这时候仅仅扮演一个Slave的角色,以便于在任何时候Active的NameNode挂掉时,能够第一时间,接替它的任务,成为主NameNode,达到一个热备份的效果,在HA架构里面SecondaryNameNode这个冷备角色已经不存在了,为了保持从NameNode时时的与主NameNode的元数据保持一致,他们之间交互通过一系列守护的轻量级进程JournalNode,当任何修改操作在主NameNode上执行时,它同时也会记录修改log到至少半数以上的JornalNode中,这时状态为Standby的NameNode监测到JournalNode里面的同步log发生变化了会读取JornalNode里面的修改log,然后同步到自己的的目录镜像树里面,当发生故障时,Active的NameNode挂掉后,Standby的NameNode会在它成为Active NameNode前,读取所有的JournalNode里面的修改日志,这样就能高可靠的保证与挂掉的NameNode的目录镜像树一致,然后无缝的接替它的职责,维护来自客户端请求,从而达到一个高可用的目的。
  为了达到快速容错的掌握全局的目的,Standby角色也会接受来自DataNode角色汇报的块信息,前面只是介绍了NameNode容错的工作原理,下面介绍下,当引入Zookeeper之后,为啥可以NameNode-HA可以达到无人值守,自动切换的容错。
  在主备切换上Zookeeper可以干的事:
  (1)失败探测   在每个NameNode启动时,会在Zookeeper上注册一个持久化的节点,当这个NameNode宕机时,它的会话就会终止,Zookeeper发现之后,就会通知备用的NameNode,Hi,老兄,你该上岗了。
  (2)选举机制, Zookeeper提供了一个简单的独占锁,获取Master的功能,如果那个NameNode发现自己得到这个锁,那就预示着,这个NameNode将被激活为Active状态
  当然,实际工作中Hadoop提供了ZKFailoverController角色,在每个NameNode的节点上,简称zkfc,它的主要职责如下:
  (1)健康监测,zkfc会周期性的向它监控的NameNode发送健康探测命令,从而来确定某个NameNode是否处于健康状态,如果机器宕机,心跳失败,那么zkfc就会标记它处于一个不健康的状态
  (2)会话管理, 如果NameNode是健康的,zkfc就会在zookeeper中保持一个打开的会话,如果NameNode同时还是Active状态的,那么zkfc还会在Zookeeper中占有一个类型为短暂类型的znode,当这个NameNode挂掉时,
  这个znode将会被删除,然后备用的NameNode,将会得到这把锁,升级为主NameNode,同时标记状态为Active,当宕机的NameNode,重新启动时,它会再次注册zookeper,发现已经有znode锁了,便会自动变为Standby状态,如此往复循环,保证高可靠,需要注意,目前仅仅支持最多配置2个NameNode。
  (3)master选举,如上所述,通过在zookeeper中维持一个短暂类型的znode,来实现抢占式的锁机制,从而判断那个NameNode为Active状态。
  hdfs-site.xml里面
  Xml代码  

  •   xml version="1.0" encoding="UTF-8"?>
  •   xml-stylesheet type="text/xsl" href="configuration.xsl"?>


  •   configuration>




  •   property>
  •   name>dfs.replicationname>
  •   value>1value>
  •   property>



  •   property>
  •   name>yarn.resourcemanager.ha.enabledname>
  •   value>truevalue>
  •   property>




  •   property>
  •   name>yarn.resourcemanager.cluster-idname>
  •   value>ns1value>
  •   property>


  •   property>

  •   name>yarn.resourcemanager.ha.rm-idsname>
  •   value>h1,h2value>
  •   property>



  •   property>
  •   name>yarn.resourcemanager.ha.automatic-failover.recover.enabledname>
  •   value>truevalue>
  •   property>




  •   property>
  •   name>yarn.resourcemanager.recovery.enabledname>
  •   value>truevalue>
  •   property>



  •   property>
  •   name>yarn.resourcemanager.hostname.h1name>
  •   value>h1value>
  •   property>


  •   property>
  •   name>yarn.resourcemanager.hostname.h2name>
  •   value>h2value>
  •   property>



  •   property>
  •   name>yarn.resourcemanager.store.classname>
  •   value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStorevalue>
  •   property>



  •   property>
  •   name>yarn.resourcemanager.zk-addressname>
  •   value>h1:2181,h2:2181,h3:2181value>
  •   property>



  •   property>
  •   name>yarn.resourcemanager.scheduler.address.h1name>
  •   value>h1:8030value>
  •   property>


  •   property>
  •   name>yarn.resourcemanager.scheduler.address.h2name>
  •   value>h2:8030value>
  •   property>



  •   property>
  •   name>yarn.resourcemanager.resource-tracker.address.h1name>
  •   value>h1:8031value>
  •   property>

  •   property>
  •   name>yarn.resourcemanager.resource-tracker.address.h2name>
  •   value>h2:8031value>
  •   property>



  •   property>
  •   name>yarn.resourcemanager.address.h1name>
  •   value>h1:8032value>
  •   property>
  •   property>
  •   name>yarn.resourcemanager.address.h2name>
  •   value>h2:8032value>
  •   property>



  •   property>
  •   name>yarn.resourcemanager.admin.address.h1name>
  •   value>h1:8033value>
  •   property>

  •   property>
  •   name>yarn.resourcemanager.admin.address.h2name>
  •   value>h2:8033value>
  •   property>



  •   property>
  •   name>yarn.resourcemanager.webapp.address.h1name>
  •   value>h1:8088value>
  •   property>

  •   property>
  •   name>yarn.resourcemanager.webapp.address.h2name>
  •   value>h2:8088value>
  •   property>


  •   property>
  •   name>yarn.resourcemanager.scheduler.classname>
  •   value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacitySchedulervalue>
  •   property>





  •   property>
  •   name>yarn.nodemanager.aux-servicesname>
  •   value>mapreduce_shufflevalue>
  •   property>

  •   property>
  •   name>yarn.nodemanager.aux-services.mapreduce.shuffle.classname>
  •   value>org.apache.hadoop.mapred.ShuffleHandlervalue>
  •   property>

  •   property>
  •   description>Classpath for typical applications.description>
  •   name>yarn.application.classpathname>
  •   value>$HADOOP_CONF_DIR
  •   ,$HADOOP_COMMON_HOME/share/hadoop/common/*
  •   ,$HADOOP_COMMON_HOME/share/hadoop/common/lib/*
  •   ,$HADOOP_HDFS_HOME/share/hadoop/hdfs/*
  •   ,$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*
  •   ,$YARN_HOME/share/hadoop/yarn/*value>
  •   property>


  •   property>
  •   name>yarn.nodemanager.resource.memory-mbname>
  •   value>5632value>
  •   property>

  •   property>
  •   name>yarn.scheduler.minimum-allocation-mbname>
  •   value>1408value>
  •   property>


  •   property>
  •   name>yarn.scheduler.maximum-allocation-mbname>
  •   value>5632value>
  •   property>
  •   configuration>
  启动方式:假设你是新的集群,如果不是,请参考文末的官网url链接
  1,先在集群中启动N/2+1个JornalNode进程,写ssh脚本执行命令:hadoop-daemon.sh start journalnode
  2 ,然后在第一台NameNode上应执行hdfs namenode -format格式化集群
  3,然后在第二台NameNode上执行hdfs namenode -bootstrapStandby同步第一台NameNode元数据
  4,在第一台NameNode上执行命令hdfs zkfc -formatZK格式化zookeeper
  5,第一台NameNode上启动zkfc执行命令:hadoop-daemon.sh start zkfc
  6,在第二台NameNode上启动zkfc执行命令:hadoop-daemon.sh start zkfc
  7,执行start-dfs.sh启动所有的NameNode,DataNode,JournalNode(注意如果已经启动就会跳过)
  8,执分别访问两台机器的50070端口,查看NameNode状态,其中一个为Active,一个为Standby即为正常
  9,测试容错,找到状态为Active的NameNode的pid进程,并kill掉,查看standby是否会自动晋级为active,如果
  一切安装完毕,则会自动切换,如果没切换,注意查看zkfc和namenode的log


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-628199-1-1.html 上篇帖子: Hadoop学习笔记(四) 下篇帖子: hadoop MR 统计分析日志脚本一例
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表