设为首页 收藏本站
查看: 912|回复: 0

[经验分享] VirtualBox环境下基于多台ubuntu虚拟机的Hadoop分布式计算环境搭建

[复制链接]

尚未签到

发表于 2015-4-16 06:07:45 | 显示全部楼层 |阅读模式
  转载自:http://blog.iyunv.com/beginner_lee/article/details/6429146
  摘要:本文介绍了在VirtualBox下安装3台ubuntu虚拟机,并搭建Hadoop环境的基本步骤,最后运行了Hadoop自带example中的wordcount例程,可以作为初学者的入门教材。
  环境:
  主机:ubuntu11.04
  VirtualBox版本:4.0.6 r71344
  ubuntu虚拟机版本:ubuntu11.04
  ubuntu虚拟机jdk版本:jdk-1.6.0_25
  ubuntu虚拟机hadoop版本:hadoop-0.20.2
  关键词:Hadoop,wordcount,ssh
  

  •   总体概述
    要在单独的一台计算机上实现Hadoop多节点分布式计算,需要通过虚拟机建立多个主机,鉴于VirtualBox的大小只是VMware的十分之一,我选择了前者。依次完成新建虚拟机、安装ssh、配置密钥实现无密码访问、安装jdk、安装hadoop并配置后,就可以运行wordcount来见识一下了不起的东西了!
  •   详细步骤

  •   安装虚拟机
    首先要在vbox中建立ubuntu系统,无论主机的操作系统是windows还是linux都没关系,我们之后进行的所有操作都只在虚拟机的ubuntu中进行。由于是在虚拟机中安装,就没有硬盘安装ubuntu那样麻烦了。上官网把ubuntu10.04LTS.iso下好,放在本地文件夹中,启动vbox,新建一个子os,选项都很简单,网卡设置为host-only,从之前下载的iso镜像启动。启动后的安装步骤在这里不再赘述,如有疑问请参照我之前的一篇文章。当第一个虚拟机建好后,不要使用同样的方法建立第二个ubuntu系统,vbox为我们提供了简便的复制方法,在Terminal中输入
    sudovboxmanage clonevdi [source.vdi][destination.vdi];
    就可以完全克隆一个os,之后new一个os,在选择硬盘那里找到刚clone的destination.vdi作为硬盘即可。我们用这种方法建立3台虚拟机,分别命名为UB01,UB02和UB03,它们的用户名必须一致,这里设置为vbox,为了简单,密码也统一设定为vbox。进行到这里,可以用ifconfig查看三台虚拟机的ip地址,正常的话它们的ip各不相同,且相互之间可以ping通,到这里就完成了第一步。
  •   安装配置ssh
    仅仅能ping通还是不够的,为了完成分布式计算系统,需要三台机器相互之间可以无密码访问(或者是master可以无密码访问2个slave)。首先在三台虚拟机上安装ssh-openserver
    sudoapt-get install sshrsync
    完成后,在个人目录/home/vbox/下新建.ssh文件夹,在.ssh中执行
    ssh-keygen -trsa
    系统会问你一些配置,由于是初次实验,不需要这些内容,点回车继续下去即可。完成后会在.ssh/下生成id_rsa和id_isa.pub两个文件,三台机器做同样处理。忘了一件事,需要配置三台机器的别名,这样就不用通过ip互访了,打开/etc/hosts,清空里面的内容,写入
    127.0.0.1localhostlocalhost.localdomainlocalhost
    192.168.56.101UB01UB01.localdomainUB01
    192.168.56.102UB02
    192.168.56.103UB03
    对于UB01按如上书写,对于UB02如下,UB03则可一并推出(这里的每一个ip地址都应该是ifconfig后看到的,因机而异)
    127.0.0.1localhostlocalhost.localdomainlocalhost
    192.168.56.101UB01
    192.168.56.102UB02UB02.localdomainUB02
    192.168.56.103UB03
    设置完别名,可以相互ping一下看看是否生效,这里ping的对象就不是ip地址而是别名了。接下来把它们的密钥相互交换,如在UB01中执行
    scp~/.ssh/id_isa.pub vbox@UB02:/home/vbox/.ssh/id_isa.pub.UB01
    scp~/.ssh/id_isa.pub vbox@UB03:/home/vbox/.ssh/id_isa.pub.UB01
    这样做的目的是把UB01的密钥交给UB02和UB03,对UB02和UB03做同样处理,完成后每一个机器的/.ssh/中应该有3个密钥,一个是自己的,另两个是别人的,把自己的密钥连同别人的两个密钥加到授权密钥中(对UB01)
    catid_isa.pub >> authorized_keys;
    cat id_isa.pub.UB02 >>authorized_keys;
    cat id_isa.pub.UB03 >>authorized_keys;
    对其它两台机器做同样处理。接下来检验相互之间是否可以通过ssh实现无密码访问,在终端输入(对UB01)
    sshUB02;
    ssh UB03;
    访问成功会现实欢迎信息,初次访问需要yes,之后就可以不直接访问了。
  •   安装jdk
    在ubuntu系统中安装jdk的方法我只简述一下,有困难者请google之,网络上资源多多。首先下载对应版本的jdk,下载完成后把.bin包移动到个人目录/home/vbox/,执行
    chmodu+x jdk-a.b.c.bin;
    sudo -s ./jdk-a.b.c.bin;
    等待安装完成,会在当前路径生成jdk目录,接下来设置环境变量,在/etc/profile/中添加JAVA_HOME、JRE_HOME、CLASSPATH和PATH的值,reboot后在Terminal输入java -version会看到版本信息,证明安装成功。
    为了备忘,环境变量的配置还是写在下边吧
    JAVA_HOME=/home/vbox/jdk1.6.0_25
    exportJRE_HOME=$JAVA_HOME/jre
    exportCLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
    expoetPATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
  •   安装hadoop
    将下载到的hadoop-0.20.2.tar.gz移动到个人目录/home/vbox/,执行安装操作
    tar -xzvf hadoop-0.20.2.tar.gz
    会在当前路径生成hadoop文件夹,接着修改文件夹所有者
    chown vbox:vbox hadoop-0.20.2
    随后把hadoop的环境变量加入到/etc/profile中,添加如下内容
    export HADOOP_HOME=/home/vbox/hadoop-0.20.2
    exportPATH=$HADOOP_HOME/bin:$PATH
    接下来需要修改hadoop/conf/目录下的配置文件,共有6个文件需要修改,分别是masters、slaves、core-site.xml、mapred-site.xml、hdfs-site.xml、hadoop-env.sh,修改如下
    文件masters
    UB01
    文件slaves
    UB02
    UB03
    文件core-site.xml


    hadoop.tmp.dir
    /home/vbox/tmp
    Asyou like



    fs.default.name
    hdfs://UB01:9000


    文件mapred-site.xml


    mapred.job.tracker
    UB01:9001


    文件hdfs-site.xml


    dfs.replication
    1


    文件hadoop-env.sh在末尾添加
    exportJAVA_HOME=/home/vbox/jdk1.6.0_25
    说明几个地方,以上几个文件中具体的版本号、路径与ip地址要根据各自虚拟机信息区别配置,不要把我的ip抄到你的文件里,没用的。注意hdfs-site.xml中设定为1的value是最小节点数,之前为3,会出现2个slave运行不能的情况,以上配置信息对UB01、UB02和UB03完全一致。
  •   执行wordcount例程
    进入/home/vbox/hadoop/目录,格式化文件系统并启动所有服务
    hadoop namenode -format;
    start-all.sh
    编写输入文件,建立input输入并将文件写入input
    echo “It is such a boring thing” > input_test_01;
    echo “But I like it” > input_test_02;
    hadoop fs -mkdir input;
    hadoop fs -copyFormatLocalinput_test_0* input;
    执行wordcount并察看计数结果
    hadoop jar hadoop-0.20.2-examples.jar wordcount input output;
    hadoop fs -cat output/part-r-00000;
    会在Terminal中看到如下wordcount信息
    51
    Damn!1
    NAT1
    ...
    注意,在第一次执行wordcount后,input和output文件依旧存在,若再次执行wordcount会出现无法响应的错误,需要通过以下的命令删除input与output,系统才会正常工作。使用xxxxxx命令关闭防火墙。
    hadoop dfs -rmr input output
  •   观察运行结果,有三种方式
    通过web方式 http://UB01:50070
    通过java方式Terminal输入jps
    监测HDFS方式 Terminal输入hadoopdfsadmin -report


  •   过程截图

  •   常用hadoop命令
    hadoop namenode -format格式化节点
    start-all.sh开启所有服务
    hadoop dfsadmin -report察看报告
    hadoop fs -mkdire input新建输入目录
    hadoop fs -ls/列出文件系统
    hadoopfs -put conf input将conf目录put到input目录
    hadoopfs -rmr output删除output目录
    hadoopjar hadoop-0.20.2-examples.jar wordcount inputoutput运行wordcount
    hadoopfs -get ouput /home/output拷贝到本地
    home/catotuput/*显示
    hadoopfs -copyToLocal input /home/vbox拷贝,同fs -get
  •   Sometips
  Q:datanode个数为0或者小于预设值
  A:删除各个/home/vbox/tmp文件夹
  Q:将各个节点的id_rsa.pub相互追加后无法实现ssh无密码互访
  A:先搞二个互访,再一个一个加上去
  Q:3台ubuntu11.04的虚拟机慢死了
A:换成10.04
  
  作者:李磊 beginner_Lee
  
  完成时间:2011-5-23 12:15
  
  版本:v2.0
  
  
  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-57502-1-1.html 上篇帖子: virtualbox sharefolder mount fail 下篇帖子: Ubuntu下安装VirtualBox增强插件
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表