设为首页 收藏本站
查看: 871|回复: 0

[经验分享] Hadoop伪分布式搭建以及入手小例子——面向纯新手(上)

[复制链接]

尚未签到

发表于 2015-7-11 09:21:26 | 显示全部楼层 |阅读模式
  额,刚写了开博之后的第一篇,看看还有点儿时间才开会,今天得再来一发...
  
  研究Hadoop不长,开始的时候完全是项目需要,也完全是冲着HBase去的...
  部门的新产品数据量太大了,第一个客户的MySql几个月就瘫了...瘫了...恨自己没时间多往DBA方向靠一靠...
  瘫了就得改啊,以后的项目不能再瘫了,再瘫部门就瘫了 - -! 赶集换型!
  目标很明确,就是NoSql,比较了一堆数据库后,目标锁定了HBase跟Mongo,由于我之前还研究过一阵子Mongo,并且Mongo也发展到了2.X版本,个人是比较倾向于Mongo的,可仔细想了想需求还是HBase合适...并且很多大公司像FaceBooke也转向了Hadoop,作为致力于向国际一流公司看齐的大连某软牛逼公司,领导一拍桌子就它了!(纯yy & 吐槽 - -!)
  
  Hadoop部署分三种:单机游戏...伪分布式,分布式
  现在手头一开始的4台机器已经开始干活了,只能先来个伪分布式的了。
  首先你需要:


  • linux环境:没有的话,自己装虚拟机在里面再装也行,我这里就用VMware装个CentOS作环境了
  • JDK:手头正好有1.6的 jdk-6u45-linux-i586.bin
  • hadoop: 选择了 hadoop-1.2.1.tar.gz(Hadoop版本太多了,开源这玩意,谁都能整一套...还是Apache的吧,以后有精力可以根据需要自己改)
  好了,开整:



  • 装好VMware,装好JDK:最基础的就不细说了,网上一搜一大堆。



    1     export JAVA_HOME=/usr/java/jdk
    2     export JRE_HOME=$JAVA_HOME/jre
    3     export PATH=$PATH:$JAVA_HOME/bin
    4     export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
      环境变量配好了,要是遇到没有解压的jar像tools和rt,再 unpack200 解开


  • 安装Hadoop:

    • 首先需要创建用户和组:

      • 还是叫 hadoop 吧,名字别起的太劲爆... useradd hadoop  并且这里还是形成习惯使用统一的名字,以后集群的时候就舒服多了
      • 然后设密码 passwd hadoop


    • /usr下解压 hadoop,文件夹改名叫hadoop,再给 hadoop 权限:chown –R hadoop:hadoop hadoop。



  • 配置SSH:
      hadoop集群个机器之间是使用SSH通信的,为了不总输入密码验证啥的,这里需要配置无密码登陆,就算是伪分布式也需要(其实Hadoop根本不知道伪不伪的..)
      配置SSH分单向和双向,密钥又分rsa/dsa: 这里就不详细再说了,完全可以再开一篇了...
      这里用最简单的单向,默认dsa就足够:



    $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa  
    $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_key

  • 配置hadoop:

    • 在hadoop主目录下新建 tmp文件夹: mkdir tmp (以后dfs和mapred会在这里)
    • 添加环境变量:


      1 export HADOOP_HOME=/usr/hadoop
      2 export PATH=$PATH:$HADOOP_HOME/bin
    • 修改hadoop-env.sh:


      export JAVA_HOME=/usr/java/jdk
    • 配置hadoop的三个主要的配置文件:core-site.xml,hdfs-site.xml,mapred-site.xml。这里图简单实用,只需配2个就够

      • core-site.xml:







        fs.default.name
        hdfs://192.168.245.2:9000    这IP是虚拟机里CentOS的IP


        dfs.replication
        1    ## replication 是数据副本数量 默认情况下是3个,这块如果不配的话,会总提示你,很烦人的


        hadoop.tmp.dir
        /usr/hadoop/hadoop/tmp  这块就是刚才新建的那个文件夹


      • mapred-site.xml:






           
                mapred.job.tracker
                192.168.245.2:9001  
           






  • 格式化:hadoop namenode -format

  • 启动:/bin/start-all.sh

  • 看一下是否OK:命令查看jps & 也可以看看web监控页面 http://localhost:50070 和 http://localhost:50030
  如果到这都没有问题的话,最基本的Apache Hadoop环境就搭好了。
  下一篇再使用这个环境,来一个例子,初步想用maven创建的java project 计算大连这一周天气的最高气温 - -!
  
  PS:这第二发,明显好长啊,排版好累,都没改上图,总需要改html吗?这么麻烦?还是我不太会用...擦
  
  
  
  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-85394-1-1.html 上篇帖子: 在Hadoop中使用MRUnit进行单元测试 下篇帖子: Hadoop 2.2.0部署安装(笔记,单机安装)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表