设为首页 收藏本站
查看: 1514|回复: 0

[经验分享] Windows7中在VMware下安装Ubuntu并部署Hadoop1.2.1分布式环境 (转载自cumtheima)

[复制链接]

尚未签到

发表于 2015-4-6 21:59:31 | 显示全部楼层 |阅读模式
  本文是完全转载自 cumtheima 的这篇文章:http://gaoxianwei.iteye.com/blog/2026942 ,由于本人是Hadoop初学者,所以会在本文中添加 cumtheima 在他那篇文章中没有说明白的地方(字体颜色为蓝色 即:我所添加的内容)。
Windows7中在VMware下安装Ubuntu并部署Hadoop1.2.1分布式环境

友情提醒:大家最好通读一遍过后,在理解的基础上安装步骤一步一步设置,因为后面的步骤会对前面的步骤有所启示。
一、所需环境与软件
1. 操作系统:Windows 7 64位或Windows 8 64位
2. 内存:4G以上
3. VMware Workstation 10:VMware-workstation-full-10.0.0-1295980.exe
4. VMware Tools:通过VMware来安装
5. Ubuntu12.04:ubuntu-12.04.4-desktop-i386.iso
6. SSH:通过linux命令来安装
7. JDK1.7:jdk-7u51-linux-i586.tar.gz
8. Hadoop1.2.1:hadoop-1.2.1.tar.gz
备注:这里是在VMware上建立三台虚拟机(Ubuntu201、Ubuntu202、Ubuntu203),并都安装Ubuntu系统,用来部署hadoop分布式集群(Ubuntu201为masters节点,Ubuntu202和Ubuntu203为slaves节点)。
二、安装VMware Workstation 10
下载“VMware-workstation-full-10.0.0-1295980.exe”,并找到序列号,一直点击“下一步”就可以安装了,非常简单。安装成功以后的界面如(图1)所示。

DSC0000.png   

(图1)
三、在VMware上安装ubuntu
1. 打开“VMware”,点击“主页”上的“创建新的虚拟机”图标,如(图2)所示。

DSC0001.png

(图2)
2. 出现如(图3)所示页面,选择“自定义(高级)”配置,点击“下一步”。

DSC0002.png

(图3)
3. 出现如(图4)所示页面,默认选择不变,点击“下一步”。

DSC0003.png
(图4)
4. 出现如(图5)所示页面,选择“稍后安装操作系统”,点击“下一步”。

DSC0004.png
(图5)
5. 出现如(图6)所示页面,“客户机操作系统”选择“Linux”,“版本”选择“Ubuntu”(根据Ubuntu的版本选择Ubuntu或Ubuntu 64位),点击“下一步”。

DSC0005.png
(图6)
6. 出现如(图7)所示页面,“虚拟机名称”随意填写,比如我的三台虚拟机名称分别为:ubuntu201、ubuntu202、ubuntu203,“位置”选择放在有空闲60G空间的磁盘里,点击“下一步”。

DSC0006.png
(图7)
7. 出现如(图8)所示页面,“处理器数量”和“每个处理器的核心数量”要根据你的电脑配置进行选择,点击“下一步”。

DSC0007.png

(图8)
8. 出现如(图9)所示页面,虚拟机内存推荐1G到2G,点击“下一步”。(如果单纯的为部署hadoop分布式环境并且内存在6G以下,个人觉得512MB就可以,否则电脑运行会很卡;如果内存配置在6G或8G,个人认为1G最合适;内存配置在8G以上,那就按需分配)

DSC0008.png
(图9)
9. 出现如(图10)所示页面,选择“使用桥接网络”,点击“下一步”。

DSC0009.png
(图10)
    10. 出现如(图11)所示页面,默认选择,或选择推荐的,点击“下一步”。

DSC00010.png
(图11)
         11. 出现如(图12)所示页面,默认选择,或选择推荐的,点击“下一步”。

DSC00011.png
(图12)
         12. 出现如(图13)所示页面,选择“创建新虚拟磁盘”,点击“下一步”。

DSC00012.png

(图13)
    13. 出现如(图14)所示页面,“最大磁盘大小”选择20G到30G,并选择“将虚拟磁盘拆分成多个文件”,点击“下一步”。

DSC00013.png
(图14)
    14. 出现如(图15)所示页面,默认名称,点击“下一步”。

DSC00014.png
(图15)
       15. 出现如(图16)所示页面,默认,点击“完成”。

DSC00015.png
(图16)
    16. 出现如(图17)所示页面,点击“CD/DVD(SATA)”,出现“虚拟机设置”弹出框,再次选择“CD/DVD(SATA)”,在右侧的“设备状态”中“启动当前连接”前面的打上对勾,下面的“连接”选择“使用ISO映像文件”,并选择要安装的“ubuntu-12.04.4-desktop-i386.iso”的路径,点击“确定”。

DSC00016.png
(图17)
      17. 出现如(图18)所示页面,点击“开启此虚拟机”。

DSC00017.png
(图18)
     18. 稍等片刻,首先出现如(图19)所示页面,选择“中文(简体)”,然后点击“安装Ubuntu”。

DSC00018.png
(图19)
    19. 稍等片刻,就会出现如(图20)所示页面,二个复选框都不选,点击“继续”。

DSC00019.png
(图20)
    20. 稍等片刻,就会出现如(图21)所示页面,选择“清除整个磁盘并安装Ubuntu”,点击“继续”。
备注:你也可以选择“其他选项”,自己分配空间,比较麻烦。这里的“清除整个磁盘并安装Ubuntu”,是清除虚拟机给你分配的20G到30G的空间,不会格式化你的盘符和盘符中其它数据。一般虚拟机安装都选择这个。

DSC00020.png
(图21)
21. 稍等片刻,就会出现如(图22)所示页面,默认选择,点击“现在安装”。

DSC00021.png
(图22)
    22. 稍等片刻,会出现如(图23)所示页面,输入”shanghai”并选择,点击“继续。

DSC00022.png
(图23)
    23. 会出现如(图24)所示页面,选择”键盘布局”为“汉语”,点击“继续”。

DSC00023.png

(图24)
    24. 出现如(图25)所示页面,填写信息,三台机器用户名一样,点击“继续”。

DSC00024.png

(图25)
    25. 出现如(图26)所示页面,这个安装过程大约15分钟左右。

DSC00025.png
(图26)
    26. 安装完成以后,出现如(图27)所示页面,点击“现在重启”。

DSC00026.png
(图27)
27. 重启后会进入如(图28)所示页面,说明Ubuntu201安装成功。

DSC00027.png
(图28)
备注:
(1). 在上面第26步(即图27)的时候,点击“现在重启”后界面中有段信息,需要你按下“Enter”键的,如果长时间没有按下“Enter”键,会出现(图29)所示界面,这个时候只要关闭“Ubuntu201”这个页面,从新点击“开启此虚拟机”就可以。不影响的。

DSC00028.png
(图29)
(2). 其它二台虚拟机Ubuntu202和Ubuntu203都按照以上步骤安装。
四、安装VMware Tools(要重启才能生效)
VMWare Tools是VMware自动的一种增强工具,可以实现在主机和虚拟机之前文件共享、复制、移动和自由拖拽的功能(不再需要按Ctrl+Alt),且虚拟机屏幕也可以实现全屏化。
    1. 在首次进入Ubuntu系统前,需要把“CD/DVD(SATA)”改为“自动检测”,如(图30)所示操作。

DSC00029.png
(图30)
    2. 点击“开启此虚拟机”,后进入Ubuntu系统,如(图31)所示,选择菜单“虚拟机”下面的“安装VMware Tools”

DSC00030.png
(图31)
    3. 稍等片刻,会出现如(图32)所示界面。

DSC00031.png
(图32)
    4. 拖动如(图33)所示在桌面。

DSC00032.png
(图33)
    5. 使用“tar -zxvf VMwareTools-9.6.0-1294478.tar.gz”命令解压文件,如(图34)所示。

DSC00033.png
(图34)
  6. 如(图35)所示,进入“vmware-tools-distrib”目录,输入“./vmware-install.pl”命令进行安装。安装过程中,根据提示(回车、或者输入yes或no),并输入相应的内容。这样就可以安装成功,重启虚拟机后会生效。
比如:“”什么也没有,按键 “回车”;
[yes]   输入yes
[no]    输入no
备注:特别注意yes,no,Y,N,y,n等大小写问题。下面会严格区分。

DSC00034.png
(图35)
五、查看虚拟机的IP地址
点击右上角网络图标,弹出一下拉菜单,点击“编辑连接”,修改IP信息。(这里需要填写DNS服务器,在自己电脑网络连接属性中,可以看到的两个DNS服务器IP地址,直接copy上去,这样可以保证ubuntu的网络连接成功)

DSC00035.png

(图36)
六、修改hosts文件
1. 需要在" /etc/hosts "文件中添加集群中所有机器的IP与主机名,使用“Ctrl+Alt+T”快捷键打开终端,输入“sudo gedit /etc/hosts”,如(图37)所示。

DSC00036.png
(图37)
       2. 把三台机器的IP都编辑进入,如(图38)所示。
如:
192.168.1.111    ubuntu201
192.168.1.112    ubuntu203
192.168.1.113    ubuntu203
(经测试:这里的主机名不能包含下划线"_"和点".",譬如:主机名为 ubuntu_12.04_01,这个就会导致在后面hadoop启动命令
start-all.sh 执行后,Namenode,JobTracker等无法启动,查看log报错为:Does not contain a valid host:port authority: hdfs://ubuntu_12.04_01:9000。这点切记啊!我为此付出了差不多一个星期的代价!类似这样的主机名是可以的:ubuntu-1204-01 )


DSC00037.png
(图38)
3.重新启动,或者在终端中输入“source /etc/hosts”后生效。(或者执行:  . /etc/hosts)
七、关闭防火墙
1. 防火墙会屏蔽一些端口号,如(图39)所示,要关闭iptables,selinux等防火墙。其它版本的Linux也是一样的。

DSC00038.jpg
(图39)
2. iptables是Ubuntun内置的服务,不知道怎么关闭,索性实现
“sudo apt-get remove iptables”命令把iptables删除。如(图40)所示。

DSC00039.png
(图40)
3. Ubuntu版本中没有selinux服务,其它版本的Linux可能会有的。
八、SSH配置无密码验证配置
1. Ubuntu中没有SSH,3个ubuntu系统都通过“sudo apt-get install ssh”安装SSH。根据提示选择“回车、yes、no、Y、N、y、n”既可以安装。
2.使用“ssh-keygen -t rsa”生成密钥对,根据提示选择“回车、yes、no、Y、N、y、n”,这里一路回车,如果出现如(图41)界面,说明安装成功。

DSC00040.png
(图41)
3.使每台机器的公钥都拷贝到authorized_keys中,并放在每台机器上。
(1). 在master机器(ubuntu201)上,执行:(要用命令 cd /home/hadoop/.ssh/ 切换到该目录才能执行下面的命令,下同。)
    cp id_rsa.pub  authorized_keys
(2). 在另外ubuntu202机器上,执行:
scp id_rsa.pub  ubuntu201:/home/hadoop/.ssh/202.pub
(3). 在另外ubuntu203机器上,执行:
scp id_rsa.pub  ubuntu201:/home/hadoop/.ssh/203.pub
(4). 这样在master机器(ubuntu201)上就有以下文件:
202.pub   203.pub    authorized_keys   id_rsa    id_rsa.pub
    (5). 把202.pub和203.pub二个文件追加到authorized_keys文件中,执行以下命名:
   cat 202.pub >> authorized_keys
   cat 203.pub >> authorized_keys
(6). 删除 202.pub   203.pub
(7). 把authorized_keys远程复制到另外二台机器,执行以下命令:
scp authorized_keys  ubuntu202:/home/hadoop/.ssh
scp authorized_keys  ubuntu203:/home/hadoop/.ssh
(8). 在ubuntu201机器使用“ssh ubuntu201”,“ssh ubuntu202”,“ssh ubuntu203”命令测试一下,第一次连接的时候需要输入密码,以后就不需要密码了。
注意:三台ubuntu机器都需要安装下面的JDK和Hadoop,slaves节点的配置都是一样的,和master的一样。
     所以有两种方法:一是三台机器分别安装,分别配置;二是master安装成功之后直接将相应的文件夹复制到slaves机器上去。根据需要选择。
九、安装JDK
1. 在opt下新建tools目录,并把“jdk-7u51-linux-i586.tar.gz”解压到/opt/tools下,使用命令“sudo mv jdk1.7.0_51 /opt/tools/jdk1.7.0_51”,解压执行命令:“sudo tar -zxvf  jdk-7u51-linux-i586.tar.gz ”  ,如(图42、43)所示。

DSC00041.png
(图42)

DSC00042.png
(图43)
2. 配置JDK环境变量
使用“sudo gedit /etc/profile”命令打开,环境配置文件,在最后添加下面内容,如(图44)所示。
export JAVA_HOME=/opt/tools/jdk1.7.0_51
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=${JAVA_HOME}/lib:${JRE_HOME}/lib:${CLASSPATH}
export PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin:${PATH}

DSC00043.png
(图44)
  3. 执行以下命令使配置文件生效,如(图45)所示。
source /etc/profile

DSC00044.png
(图45)
  4. 使用javac 、java命令验证JDK安装是否成功。(验证命令: java -version)
十、Hadoop分布式安装
1. 把“hadoop-1.2.1.tar.gz”文件解压(命令:sudo tar -zxvf hadoop-1.2.1.tar.gz),并使用命令“sudo mv hadoop-1.2.1 /opt/hadoop-1.2.1”把hadoop-1.2.1移动到opt目录下,如(图46)所示。

DSC00045.png
(图46)
2. 配置Hadoop环境变量
使用“sudo gedit /etc/profile”命令打开,环境文件,在最后添加下面内容。
         export HADOOP_HOME=/opt/hadoop-1.2.1
         export PATH=${PATH}:${HADOOP_HOME}/bin
执行以下命令使配置文件生效: source /etc/profile

3. 修改“conf/hadoop-env.sh”文件,修改java环境变量,如(图47)所示。
export JAVA_HOME=/opt/tools/jdk1.7.0_51

DSC00046.png
(图47)
4. 修改“conf/core-site.xml”文件,如下内容,如(图48)所示。

fs.default.name
hdfs://ubuntu201:9000


hadoop.tmp.dir
/opt/hadoop-1.2.1/tmp


DSC00047.png

(图48)
5. 在“conf/core-site.xml”文件中,hadoop.tmp.dir=”/opt/hadoop-1.2.1/tmp”,这里要新建tmp文件夹,并设置权限,如(图49)所示。
命令如下:
sudo mkdir tmp
sudo chmod 777 tmp

DSC00048.png
(图49)
6. 修改“conf/hdfs-site.xml”文件,如下内容,如(图50)所示。
  
dfs.name.dir
/opt/hadoop-1.2.1/name   


dfs.data.dir
/opt/hadoop-1.2.1/data


dfs.replication
2


DSC00049.png
(图50)
备注:
(1).  dfs.data.dir=”/opt/hadoop-1.2.1/name”
      dfs.data.dir=”/opt/hadoop-1.2.1/data”
这里的name和data文件夹不能提前建立,否则会出问题,可能的错误是DataNode启动不了。
   (2).  dfs.replication = 2
        是副本数,不能大于从服务器(slaves)的个数。
7. 修改“conf/mapred-site.xml”文件,如下内容,如(图51)所示。

mapred.job.tracker
ubuntu201:9001


mapred.local.dir
/opt/hadoop-1.2.1/var


DSC00050.png
(图51)
备注:(1). 对于mapred.local.dir=/opt/hadoop-1.2.1/var
      这里的var文件夹要提前建立,否则会出错。
         (2). 使用以下命令新建var目录和赋权限。
sudo mkdir var
sudo chmod 777 var
8. 修改“conf/masters”文件,如下内容,如(图52)所示。

DSC00051.png
(图52)
9. 修改“conf/slaves”文件,如下内容,如(图53)所示。

DSC00052.png
(图53)
10. Hadoop分布式环境安装完毕。

11. 这里可以使用以下命令查看hadoop版本等信息: hadoop version 。
十一、Hadoop的启动和验证
1. 在master机器中,使用以下命令格式化分布式文件系统。
hadoop namenode -format
出现有“has been successfully formatted”字样的,说明格式化成功。
2. 在master机器中启动hadoop守护进程。
start-all.sh
备注:使用 stop-all.sh 命令停止hadoop守护进程。
Start成功会在控制台打印一些日志信息如(图54)所示。

DSC00053.png
(图54)
3. 在master机器中使用jps查看进程信息如(图55)所示。(就本文的配置来说,master机器jps后必须要有 4 个进程才说明是成功的)

DSC00054.png
(图55)
4. 在slaves机器中使用jps查看进程信息如(图56)所示。(就本文的配置来说,slaves机器jps后必须要有 3 个进程才说明是成功的)

DSC00055.png
(图56)
5. 出现(图55)和(图56)所示信息,说明hadoop分布式集群安装成功了。
十二、Hadoop WebUI访问
1. 访问 http://192.168.1.111:50070 可以查看Hadoop集群的节点数、NameNode及整个分布式系统的状态等。
2. 访问 http://192.168.1.111:50030 可以查看JobTracker的运行状态,如Job运行的速度、Map个数、Reduce个数等。
十三、hadoop集群测试
我们来运行hadoop-examples-1.2.1.jar里面自带的WorkCount程序,作用是统计单词的个数。
1. 在Ubuntu201的桌面上创建一个test.txt文件,里面的内容如下(共20行),如(图57)所示。
hello world
。。。
hello world

DSC00056.png
(图57)
2. 在HDFS系统里创建一个input文件夹,使用命令如下,如(图58)所示。
hadoop fs -mkdir input
或  hadoop fs -mkdir /user/hadoop/input
备注:因为在hdfs下建立input文件夹,默认是在 /user/hadoop/下的(下面在运行案例的时候会体会到,那时要使用全路径)。

DSC00057.png
(图58)
3. 把创建好的test.txt上传到HDFS系统的input文件夹下,如(图59)所示。
hadoop fs -put /home/hadoop/桌面/test.txt input
或 hadoop fs -put /home/hadoop/桌面/test.txt /user/hadoop/input

DSC00058.png
(图59)
4. 我们可以验证下test.txt是不是在input里,执行命令如下,如(图60)所示。
hadoop fs -ls input

DSC00059.png
(图60)
5. 运行hadoop-examples-1.2.1.jar,执行命令如下,执行过程如(图61)所示。
hadoop jar hadoop-examples-1.2.1.jar wordcount /user/hadoop/input/test.txt /user/hadoop/output
备注:这里的input/test.txt要是全路径。

DSC00060.png
(图61)
6. 运行结果后,如(图62)所示,说明运行成功。

DSC00061.png
(图62)
7. 使用如下命令来查看运行的结果,如(图63)所示。
hadoop fs -ls output
hadoop fs -text /user/hadoop/output/part-r-00000

DSC00062.png
(图63)
8. OK!如果出现如(图63)所示页面,说明hadoop三个节点的集群测试成功。


备注:
  在部署hadoop集群过程中,如果出现错误,可以查看 %HADOOP_HOME%/logs 下面的日志文件,是很好的方法。
  
再次声明:本文转载自 http://gaoxianwei.iteye.com/blog/2026942 。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-54461-1-1.html 上篇帖子: Virtual Machine 下篇帖子: Windows装VMware之后卸载不干净导致无法安装的解决办法
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表