linux上部署hadoop集群 HA-QJM篇

king71 · 发表于 2018-10-30 11:40:17

　　环境
　　基础篇需要4台机器（一台namenode,三台datanode);
　　HA篇需要8台机器：两台namenode(一台作active nn,另一台作standby nn)，三台datanode，三台zookeeper（也可以省去这三台，把zookeeper daemon部署在其他机器上）。实际上还需要3台journalnode,但因为它比较轻量级，所以这里就把它部署在datanode上了。
　　三台zookeeper机器上配置以下信息：
　　1 创建hadoop用户
　　2 做好ssh免密码登陆
　　3 修改主机名
　　4 安装JDK
　　5 下载zookeeper安装包
　　下载地址：http://mirror.nus.edu.sg/apache/zookeeper
　　下载zookeeper-3.4.6到/opt/目录下，解压
　　6 修改/etc/profile
　　export ZOO_HOME=/opt/zookeeper-3.4.6
　　export ZOO_LOG_DIR=/opt/zookeeper-3.4.6/logs
　　使之生效：
　　source /etc/profile
　　7 建立zookeeper数据存放目录：
　　mkdir /opt/zookeeper-3.4.6/data
　　8 在$ZOO_HOME/conf下创建配置文件：
　　vi zoo.cfg 加入以下内容：
　　# The number of milliseconds of each tick
　　tickTime=2000
　　# The number of ticks that the initial
　　# synchronization phase can take
　　initLimit=10
　　# The number of ticks that can pass between
　　# sending a request and getting an acknowledgement
　　syncLimit=5
　　# the directory where the snapshot is stored.
　　# do not use /tmp for storage, /tmp here is just
　　# example sakes.
　　dataDir=/opt/zookeeper-3.4.6/data
　　# the port at which the clients will connect
　　clientPort=2181
　　server.1=10.9.214.167:31316:31317
　　server.2=10.9.214.18:31316:31317
　　server.3=10.9.214.211:31316:31317
　　9 在/opt/zookeeper-3.4.6/data/目录下创建文件myid,并写入内容，zookeeper1写1，zookeeper2写2,zookeeper3写3 ,如：
　　echo 1 >/opt/zookeeper-3.4.6/data/myid
　　10 启动zookeeper 服务：
　　cd $ZOO_HOME
　　./bin/zkServer.sh start
　　11 验证
　　测试zookeeper集群是否建立成功，在$ZOO_HOME目录下执行以下命令即可，如无报错表示集群创建成功：
　　./bin/zkCli.sh -server localhost:31315
　　hadoop配置文件只需要修改core-site.xml和hdfs-site.xml
　　配置core-site.xml
　　
　　hadoop.tmp.dir
　　/opt/hadoop-2.6.0/tmp
　　
　　
　　fs.default.name
　　hdfs://10.9.214.151:9000
　　
　　
　　hadoop.proxyuser.root.hosts
　　10.9.214.151
　　
　　
　　hadoop.proxyuser.root.groups
　　*
　　
　　
　　fs.defaultFS
　　hdfs://cluster_haohzhang
　　
　　
　　ha.zookeeper.quorum
　　10.9.214.167:2181,10.9.214.18:2181,10.9.214.211:2181
　　
　　配置hdfs-site.xml
　　
　　dfs.namenode.name.dir
　　file:/opt/hadoop-2.6.0/hdfs/name
　　
　　
　　dfs.dataname.data.dir
　　file:/opt/hadoop-2.6.0/hdfs/data
　　
　　
　　dfs.replication
　　3
　　
　　
　　dfs.nameservices
　　cluster_haohzhang
　　
　　
　　dfs.ha.namenodes.cluster_haohzhang
　　nn1,nn2
　　
　　
　　dfs.namenode.rpc-address.cluster_haohzhang.nn1
　　10.9.214.151:8020
　　
　　
　　dfs.namenode.rpc-address.cluster_haohzhang.nn2
　　10.9.214.15:8020
　　
　　
　　dfs.namenode.http-address.cluster_haohzhang.nn1
　　10.9.214.151:50070
　　
　　
　　dfs.namenode.http-address.cluster_haohzhang.nn2
　　10.9.214.15:50070
　　
　　
　　
　　dfs.namenode.shared.edits.dir
　　qjournal://10.9.214.158:8485;10.9.214.160:8485;10.9.214.149:8485/cluster_haohzhang
　　
　　
　　dfs.client.failover.proxy.provider.cluster_haohzhang
　　org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
　　
　　
　　dfs.ha.fencing.methods
　　sshfence
　　
　　
　　dfs.ha.fencing.methods
　　sshfence
　　
　　
　　dfs.ha.fencing.ssh.private-key-files
　　/home/hadoop/.ssh/id_rsa
　　
　　
　　dfs.journalnode.edits.dir
　　/opt/hadoop-2.6.0/journalnode
　　
　　
　　dfs.ha.automatic-failover.enabled
　　true
　　
　　操作细节
　　1 先删除所有namenode和datanode,journalnode上的metadata
　　2 启动三个journalnode进程
hadoop-daemon.sh start journalnode　　3 格式化namenode
　　在一台namenode上执行：
hdfs namenode -format　　这个步骤会连接journalnode,然后会把journalnode也格式化掉
　　4 启动刚刚格式化的namenode上的hdfs:
cd $HADOOP_HOME/sbin; ./start-dfs.sh　　5 在另一台namenode上执行：
hdfs namenode -bootstrapStandby　　6 验证手动fail over
　　在任意一个namenode上执行：
hdfs haadmin -help 　　可以查看命令用法，这里我们用
hdfs haadmin -getServiceState nn1　　
hdfs haadmin -getServiceState nn2
　　获取两个namenode的状态，有两种状态：standby , active
　　手动切换状态：
hdfs haadmin -failover nn1 nn2　　成功的化，nn2就成了active状态了
　　7 用zookeeper自动切换
　　7.1 在其中一个namenode上初始化zkfc
hdfs zkfc -formatZK　　这步会尝试连接zookeeper上的2181端口，并在zookeeper里面创建一个znode
　　7.2 在namenode上启动hdfs
cd $HADOOP_HOME; ./start-dfs.sh　　7.3 验证进程是否都启动成功
　　[hadoop@hadoopmaster-standby sbin]$ jps
　　12277 NameNode
　　12871 Jps
　　12391 DFSZKFailoverController
　　[hadoop@hadoopslave1 hadoop-2.6.0]$ jps
　　7698 DataNode
　　7787 JournalNode
　　7933 Jps
　　7.4 验证failover自动切换
　　杀掉active namenode上的所有hadoop进程：
kill -9 　　然后查看另外一个namenode是否已经从standby 变为active状态，
　　注意：配置文件中默认每5妙钟检测一次健康状态

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] linux上部署hadoop集群 HA-QJM篇

浏览过的版块

扫码加入运维网微信交流群