设为首页 收藏本站
查看: 974|回复: 0

[经验分享] Hadoop单机版和全分布式安装笔记

[复制链接]

尚未签到

发表于 2015-7-14 08:31:47 | 显示全部楼层 |阅读模式
  Hadoop,分布式的大数据存储和计算, 免费开源!
  有Linux基础的同学安装起来比较顺风顺水,写几个配置文件就可以启动了,本人菜鸟,所以写的比较详细。
  为了方便,本人使用三台的虚拟机系统是Ubuntu-12。
  设置虚拟机的网络连接使用桥接方式,这样在一个局域网方便调试。
  单机和集群安装相差不多,先说单机然后补充集群的几点配置。

第一步,先安装工具软件
  编辑器:vim

sudo apt-get install vim

  ssh服务器: openssh,先安装ssh是为了使用远程终端工具(putty或xshell等),这样管理虚拟机就方便多了。

sudo apt-get install openssh-server

第二步,一些基本设置
  最好给虚拟机设置固定IP

sudo vim /etc/network/interfaces
加入以下内容:
iface eth0 inet static
address 192.168.0.211
gateway 192.168.0.222
netmask 255.255.255.0

  修改机器名,我这里指定的名字是:hadoopmaster ,以后用它做namenode

sudo vim /etc/hostname

  修改hosts,方便应对IP变更,也方便记忆和识别

sudo vim /etc/hosts
加入内容:
192.168.0.211   hadoopmaster

第三步,添加一个专门为hadoop使用的用户

sudo addgroup hadoop
sudo adduser -ingroup hadoop hadoop

  设置hadoop用户的sudo权限

sudo vim /etc/sudoers

  在 root   ALL=(ALL:ALL)
  下面加一行 hadoop ALL=(ALL:ALL)
  切换到hadoop用户 su hadoop

第四步,解压安装JDK,HADOOP,PIG(顺便把PIG也安装了)

sudo tar zxvf ./jdk-7-linux-i586.tar.gz  -C /usr/local/jvm/
sudo tar zxvf ./hadoop-1.0.4.tar.gz -C /usr/local/hadoop
sudo tar zxvf ./pig-0.11.1.tar.gz -C /usr/local/pig

  修改解压后的目录名并且最终路径为:

jvm: /usr/local/jvm/jdk7
hadoop: /usr/local/hadoop/hadoop (注意:hadoop所有节点的安装路径必须相同)
pig: /usr/local/pig

  设置目录所属用户

sudo chown -R hadoop:hadoop jdk7
sudo chown -R hadoop:hadoop hadoop
sudo chown -R hadoop:hadoop pig

  设置环境变量, 编辑~/.bashrc 或 ~/.profile 文件加入

export JAVA_HOME=/usr/local/jvm/jdk7
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
export HADOOP_INSTALL=/usr/local/hadoop/hadoop
export PATH=${HADOOP_INSTALL}/bin:$PATH
source ~/.profile 生效

第五步,.ssh无密码登录本机,也就是说ssh到本机不需要密码

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

  如果不起作用请修改权限:

chmod 700 ~/.ssh
chmod 600 ~/.ssh/authorized_keys  

  authorized_keys相当于白名单,id_rsa.pub是公钥,凡是在authorized_keys有请求者机器的公钥时ssh服务器直接放行,无需密码!

第六步,Hadoop必要设置
  所有设置文件在hadoop/conf目录下


  •   hadoop-env.sh 找到 #export JAVA_HOME 去掉注释#,并设置实际jdk路径

  •   core-site.xml


    fs.default.name
    hdfs://hadoopmaster:9000


    hadoop.tmp.dir
    /usr/local/hadoop/tmp

  •   mapred-site.xml


    mapred.job.tracker
    hadoopmaster:9001

  •   hdfs-site.xml


    dfs.name.dir
    /usr/local/hadoop/datalog1,/usr/local/hadoop/datalog2


    dfs.data.dir
    /usr/local/hadoop/data1,/usr/local/hadoop/data2


    dfs.replication
    1

  •   文件masters 和 文件slaves, 单机写 localhost 即可


第七步,启动Hadoop
  格式化Hadoop的HDFS文件系统

hadoop namenode -format

  执行Hadoop启动脚本,如果是集群的话在master上执行,其他slave节点Hadoop会通过ssh执行:   


start-all.sh

  执行命令 jps 如果显示有: Namenode,SecondaryNameNode,TaskTracker,DataNode,JobTracker等五个进程表示启动成功了!

第八步,集群的配置
  所有其他单机的安装跟上面相同,下面只增加集群的额外配置!
  最好先配置好一台单机,其他的可以通过scp直接复制,路径也最好相同包括java!
  本例的主机列表(设置hosts):


IP
主机名




192.168.0.211
hadoopmaster


192.168.0.210
hadoopnode1


192.168.0.212
hadoopnode2
  设置ssh,让master能够不要密码登录到其他slaves上,主要用来启动slaves

复制hadoopmaster下id_rsa.pub到子结点:
scp ./ssh/id_rsa.pub hadoopnode1:/home/hadoop/.ssh/id_master
scp ./ssh/id_rsa.pub hadoopnode2:/home/hadoop/.ssh/id_master
分别在子结点~/.ssh/目录下执行:
cat ./id_master >> authorized_keys

  masters文件,添加作为secondarynamenode或namenode的主机名,一行一个。
  集群写master名如:


  • hadoopmaster
  slaves文件,添加作为slave的主机名,一行一个。
  集群写子结点名:如


  • hadoopnode1
  • hadoopnode2


Hadoop管理
  hadoop启动后会启动一个任务管理服务和一个文件系统管理服务,是两个基于JETTY的WEB服务,所以可在线通过WEB的方式查看运行情况。
  任务管理服务运行在50030端口,如 http://127.0.0.1:50030
  文件系统管理服务运行在50070端口。

参数说明:


  • dfs.name.dir:是NameNode持久存储名字空间及事务日志的本地文件系统路径。 当这个值是一个逗号分割的目录列表时,nametable数据将会被复制到所有目录中做冗余备份。
  • dfs.data.dir:是DataNode存放块数据的本地文件系统路径,逗号分割的列表。 当这个值是逗号分割的目录列表时,数据将被存储在所有目录下,通常分布在不同设备上。
  • dfs.replication:是数据需要备份的数量,默认是3,如果此数大于集群的机器数会出错。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-86409-1-1.html 上篇帖子: 添加和删除hadoop集群中的节点 下篇帖子: hadoop初解
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表