设为首页 收藏本站
查看: 1553|回复: 0

[经验分享] Hadoop 开发平台搭建

[复制链接]
累计签到:4 天
连续签到:1 天
发表于 2018-10-31 10:27:32 | 显示全部楼层 |阅读模式
  【安装JDK】
  首先,从http://www.oracle.com/technetwork/java/javase/downloads/index.html中下载jdk,我的版本是jdk1.6.0_24,我下载的是bin文件,我将下载的jdk1.6.0_24.bin文件置于/usr/lib/jvm/openjdk中,然后,在shell中执行。
  $ sudo chmod u+x /usr/lib/jvm/openjdk/jdk1.6.0_12.bin
  修改bin文件权限,使其可执行。然后,执行
  $ sudo /usr/lib/jvm/java/jdk1.6.0_12.bin
  安装完毕。
  配置下列文件
  $ sudo gedit /etc/environment
  增加
  PATH="......:/usr/lib/jvm/openjdk/jdk1.6.0_24/bin"
  CLASSPATH=.:/usr/lib/jvm/openjdk/jdk1.6.0_24/lib
  JAVA_HOME=/usr/lib/jvm/openjdk/jdk1.6.0_24
  $ sudo gedit /etc/profile
  增加
  export JAVA_HOME=/usr/lib/jvm/openjdk/jdk1.6.0_24
  export JRE_HOME=/usr/lib/jvm/openjdk/jdk1.6.0_24/jre
  export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
  export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOME/bin
  最后注销当前用户,登录后执行
  $ java -version
  检测版本
  【Hadoop 分布式计算环境搭建】
  一、软件环境: 集群机系统-Ubuntu10.10
  jdk1.6.0_24
  hadoop-0.20.2
  二、集群环境:
  1.用户名:dic,环境:UBUNTU10.10,IP:10.13.30.79,作用:mater
  2.用户名:dic,环境:UBUNTU10.10,IP:10.13.30.35,作用:slave1
  解释:相同的用户名是为了保证hadoop的目录结果一样(只有这个是hadoop要求的,ssh与jdk的目录是各异的),都是[/home/dic/hadoop-0.20.2],hdfs目录是[/home/dic/hadooptmp]。
  【1】SSH无密码验证配置
  步骤:
  [master]
  A. 安装SSH,并生成id_rsa私钥和id_rsa.pub公钥(~/.ssh)
  $ sudo apt-get install ssh
  $ ssh-keygen -t rsa
  B. master(10.13.30.79)公钥传给slaver1(10.13.30.35)
  $ scp /home/dic/.ssh/id_rsa.pub dic@10.13.30.35:/home/dic/.ssh/10.13.30.79
  [slave1]
  A. 安装SSH,同master
  B. slaver1(10.13.30.35)公钥传给master(10.13.30.79)
  $ scp /home/dic/.ssh/id_rsa.pub dic@10.13.30.79:/home/dic/.ssh/10.13.30.35
  C. 把生成的 id_ras.pub 文件改名为 authorized_keys
  $ cp id_ras.pub >> authorized_keys
  $ cat 10.13.30.79 >> authorized_keys
  D. 重启
  $ ssh-agent
  $ sudo /etc/init.d/sshd restart
  [master]
  C. 把生成的 id_ras.pub 文件改名为 authorized_keys
  $ cp id_ras.pub >> authorized_keys
  $ cat 10.13.30.35 >> authorized_keys
  D. 重启
  $ ssh-agent
  $ sudo /etc/init.d/sshd restart
  【2】配置/etc/hosts文件,添加主机名与ip集群中主机名与ip的映射关系
  [master]
  $ sudo vi /etc/hosts
  添加
  10.13.30.35 qlee-desktop
  [slave1]
  $ sudo vi /etc/hosts
  添加
  10.13.30.79 cl-desktop
  【3】Hadoop配置
  这里只叙述如何配置master。slaves的配置方法是,将master的[~/hadoop-0.20.2]文件传给所有的slave1,置于slaves的相同位置。
  3.1 conf/hadoop-env.sh
  $ export JAVA_HOME=/usr/lib/jvm/java-6-sun
  3.2 配置masters文件和slaves文件
  conf/masters
  cl-desktop
  conf/slaves
  qlee-desktop
  cl-desktop
  注:伪分布式中这里的slaves还是10.13.30.79
  3.3 配置conf/core-site.xml,确定 HDFS 主节点,它定义namenode的主机和端口,如果作为namenode启动,是需要读入此配置的。
  
  hadoop.tmp.dir
  /home/dic/hadooptmp
  A base for other temporary directories.
  
  
  
  fs.default.name
  hdfs://cl-desktop:9000
  
  3.4 配置conf/hdfs-site.xml 定义默认数据副本
  
  
  dfs.replication
  2
  
  
  3.5 配置mapred-site.xml-- jobtracker
  
  mapred.job.tracker
  cl-desktop:9001
  
  3.6 copy master的hadoop文件夹到各个slave,完成配置
  [master]
  $ scp /home/dic/hadoop-0.20.2 dic@10.13.30.35:/home/dic/hadoop-0.20.2
  【4】Hadoop启动[master]
  4.1 格式化名称节点
  $ bin/hadoop namenode -format
  $ bin/start-all.sh
  $ jps
  注:可以不使用start-all.sh,分开分别调用start-dfs.sh start-mapred.sh。如下图:
  每个节点的启动脚本和守护进程的关系
  4.2 验证与测试
  4.2.1
  验证启动进程--jps
  dic@cl-desktop:~# jps
  7367 NameNode
  7842 JobTracker
  7938 Jps
  7522 SecondaryNameNode
  dic@qlee-desktop:~# jps
  7785 DataNode
  8114 Jps
  7991 TaskTracker
  查看集群状态--hadoop dfsadmin -report
  测试 HDFS
  hadoop-0.20 fs -ls /
  hadoop-0.20 fs -mkdir test
  hadoop-0.20 fs -ls test
  hadoop-0.20 fs -rmr test
  hadoop-0.20 fsck /
  4.3 Web 管理界面
  namenode
  http://localhost:50070/
  jobtracker
  http://localhost:50030/
  【5】执行一个 MapReduce 作业[master]
  5.1 生成输入数据
  $ hadoop fs -mkdir input
  $ hadoop fs -put /home/dic/input/163 input
  $ hadoop fs -put /home/dic/input/sina input
  $ hadoop-0.20 fs -ls input
  5.2 在集群上运行 MapReduce wordcount 作业
  $ hadoop jar ~/hadoop-0.20.2/hadoop-0.20.2-examples.jar wordcount input output
  5.3  检测 MapReduce 作业的输出
  $ hadoop fs -ls  /user/dic/output
  $ hadoop fs -cat /user/dic/output/part-r-00000
  参考网站:
  http://www.ibm.com/developerworks/cn/linux/l-hadoop-1/
  http://www.ibm.com/developerworks/cn/linux/l-hadoop-2/
  http://www.ibm.com/developerworks/cn/linux/l-hadoop-3/
  http://bxyzzy.blog.51cto.com/854497/352692
  【安装eclipse】
  (官方下载地址:http://www.eclipse.org/downloads/)
  首要说明:Linux(继承自Unix)的文件系统构架中,用户手动选择安装目录是不必要的。
  有人就问了,不能自己做主,这样不是不好吗? 这套系统是很聪明滴,她很更了解什么东西该放在什么位置,根本不用操心。若是非要操心,非要自己指定位置,指错了说不定会出故障欧!——因为提供软件的人 也信任这套系统最佳,呵呵~这种规范已经实行几十年了,事实证明这就是最好的!所以就不需要我们操心安装位置了(事实上安装时也没提示你选择安装目录)
  通常情况下,linux会这样放软件的组件:
  程序的文档->/usr/share/doc; /usr/local/share/doc
  程序->/usr/share; /usr/local/share
  程序的启动项->/usr/share/apps; /usr/local/share
  程序的语言包->/usr/share/locale; /usr/local/share/locale
  可执行文件->/usr/bin; /usr/local/bin
  而有的软件为了和系统组件分隔开,选择栖息于 /opt,但目录结构往往是一样的,把/usr或/usr/local 替换为了/opt/"软件名"
  基于以上说明,我们将eclipse拷贝至/opt。此外,为了方面以后安装使用自己的软件,更改当前用户(非root用户)对/opt操作权限。
  chmod 777 /opt -R   //本文转自:http://www.lunwenroom.com/jisuanjilei/123.html


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-628851-1-1.html 上篇帖子: hadoop作业初始化过程详解(源码分析第三篇) 下篇帖子: Hadoop实战-初级部分 之 Hadoop安装部署
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表