设为首页 收藏本站
查看: 864|回复: 0

[经验分享] Hadoop入门学习笔记---part2

[复制链接]

尚未签到

发表于 2015-7-11 08:45:18 | 显示全部楼层 |阅读模式
  在《Hadoop入门学习笔记---part1》中感觉自己虽然总结的比较详细,但是始终感觉有点凌乱。不够系统化,不够简洁。经过自己的推敲和总结,现在在此处概括性的总结一下,认为在准备搭建hadoop环境时,需要在linux机器上做一些设置,在搭建Hadoop集群环境前,需要在本地机器上做以下设置:


  • 修改ip地址;
  • 关闭防火墙;
  • Hostname的修改;
  • Ssh自动登陆的设置(也即:免密码登录);
  **关于以上操作的详细命令可以查看上一篇博客《Hadoop入门学习笔记---part1》 。  作者:itRed   邮箱:it_red@sina.com  博客:http://itred.iyunv.com
  然后是安装过程,分为两步:


  • 安装jdk;
  • 安装hadoop;
  Part2的重点就是安装和配置hadoop:在myeclipse中查看Hadoop的源码。
  在安装之前,说一说hadoop的版本:


  • Apache :官方版;
  • Cloudera: 使用下载最多的版本,稳定,有商业支持,在Apache基础上打上了patch。应该说是比较推荐的一种;
  • Yahoo :内部使用的版本,发布过两次,已有的版本放到Apache上,后续的还在继续发布,并且是集中在Apache的版本上。
  本人使用的Hadoop版本是1.1.2,使用的软件为Hadoop-1.1.2.tar.gz
  在以上的设置工作完之后,正式进入安装和配置阶段:


  • 将该软件放到linux系统中,解压,为了方便,修改一下文件名和权限;
  • 设置环境变量;



#vi  /etc/profile
加上一行:export HADOOP_HOME=/usr/local/Hadoop
在PATH后添加:$HADOOP_HOME/bin:
  然后执行这个命令让其立即生效:



#source /etc/profile
    3. 修改hadoop的配置文件,用以实现伪分布,这里主要修改4个配置文件:
    (1)     Hadoop-env.sh
  主要是修改jdk的路径:
  在该文件的第9行,修改JAVA_HOME的路径,根据自己的实际情况就行。
   (2)     Core-site.xml
  在configuration里面加入一下配置代码,需要注意自己的主机名,即最开始修改的hostname:




fs.default.name
hdfs://hadoop:9000


Hadoop.tmp.dir
/usr/local/Hadoop/tmp

    (3)     Hdfs-site.xml:




dfs.replication
1


dfs.permission
true

    (4)     Mapred-site.xml




mapred.job.tracker
Hadoop:9001

    4.  待配置完成后,需要对hadoop进行格式化,很多哦人开始不理解。这样想就行了,因为HDFS是一个文件系统,专门用来存储的。想想U盘什么的都需要格式化。



格式化的命令为:#hadoop namenode –format
  
  (总结:如果启动后发现有进程没有启动,需要重新格式化,那么首先得把已经启动了的进程停止掉,才能进行操作。#stop-all.sh)
    5. 启动Hadoop:



命令:#start-all.sh  (注意:中间没有空格)
很自然能想到关闭停止的命令:#stop-all.sh   
  可以进行单个启动和关闭。
  启动完成后,需要验证是否正确,用命令jps来验证,注意不是jsp:  



#jps
  这时会出现5个java进程(一共6个,其中包含一个jps),分别为:
  SecondaryNameNode     DataNode     TaskTracker    NameNode    JobTracker    Jps   
DSC0000.png
  这样就算安装成功了!如果还不甘心,希望在浏览器中查看,不慌。这就说来。
  如果你的操作界面时命令行模式,首先#startx 进入操作系统的界面模式,然后打开浏览器,在浏览器中输入hadoop:50070或输入 Hadoop:50030就可以看到如下界面:
  hadoop:50070页面:
DSC0001.png
  hadoop:50030页面:
DSC0002.png
  关于某进程没有启动的常见解决办法:
  HDFS在安装后没有格式化;
      4个配置文件修改可能存在问题;
      Hostname与ip没有绑定;
      Ssh的免密码登录没有配置成功。
      如果确保没有任何操作失误,或者在多次格式化后,还是不能启动某个进程,那么去删除/usr/local/Hadoop/目录下的tmp文件夹,然后再重新格式化。应该就没有什么问题了。
  
  那么如何在myeclipse中查看Hadoop的源码呢?
  首先解压hadoop软件。我使用的版本是:hadoop-1.1.2.tar.gz
  解压后的文件目录结构如下:
DSC0003.png
  然后打开myeclipse,新建一个java工程,把src目录下的core文件夹,hdfs文件夹,mapred文件夹拷贝到src目录下。然后选择你的jdk,然后把那个src包调一下,就可以打开看到Hadoop的源码了。



作者:itRed         
邮箱:it_red@sina.com            
博客:http://www.iyunv.com/itred
***版权声明:本文版权归作者和博客园共有,欢迎转载,但请在文章显眼位置标明文章出处。未经本人书面同意,将其作为他用,本人保留追究责任的所有权利。

  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-85362-1-1.html 上篇帖子: Hadoop日记系列目录 下篇帖子: Hadoop编程笔记(二):Hadoop新旧编程API的区别
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表