设为首页 收藏本站
查看: 1005|回复: 0

[经验分享] Hadoop快速入门

[复制链接]

尚未签到

发表于 2015-7-15 12:02:36 | 显示全部楼层 |阅读模式
  Hadoop快速入门
Hadoop快速入门


  • 目的
  • 先决条件  

    • 支持平台
    • 所需软件
    • 安装软件

  • 下载
  • 运行Hadoop集群的准备工作
  • 单机模式的操作方法
  • 伪分布式模式的操作方法  

    • 配置
    • 免密码ssh设置
    • 执行

  • 完全分布式模式的操作方法
  
目的

  这篇文档的目的是帮助你快速完成单机上的Hadoop安装与使用以便你对Hadoop分布式文件系统(HDFS)和Map-Reduce框架有所体会,比如在HDFS上运行示例程序或简单作业等。
  
先决条件

  
支持平台

  • GNU/Linux是产品开发和运行的平台。
    Hadoop已在有2000个节点的GNU/Linux主机组成的集群系统上得到验证。
  • Win32平台是作为开发平台支持的。由于分布式操作尚未在Win32平台上充分测试,所以还不作为一个生产平台被支持。
  
所需软件
  Linux和Windows所需软件包括:

  • JavaTM1.5.x,必须安装,建议选择Sun公司发行的Java版本。
  •   ssh 必须安装并且保证 sshd一直运行,以便用Hadoop
    脚本管理远端Hadoop守护进程。
  Windows下的附加软件需求

  •   Cygwin - 提供上述软件之外的shell支持。
  
安装软件
  如果你的集群尚未安装所需软件,你得首先安装它们。
  以Ubuntu Linux为例:
  $ sudo apt-get install ssh


  $ sudo apt-get install rsync
  在Windows平台上,如果安装cygwin时未安装全部所需软件,则需启动cyqwin安装管理器安装如下软件包:

  • openssh - Net
  
下载

  为了获取Hadoop的发行版,从Apache的某个镜像服务器上下载最近的
稳定发行版。
  
运行Hadoop集群的准备工作

  解压所下载的Hadoop发行版。编辑
conf/hadoop-env.sh文件,至少需要将JAVA_HOME设置为Java安装根路径。
  尝试如下命令:
  $ bin/hadoop

将会显示hadoop 脚本的使用文档。
  现在你可以用以下三种支持的模式中的一种启动Hadoop集群:

  • 单机模式
  • 伪分布式模式
  • 完全分布式模式
  
单机模式的操作方法

  默认情况下,Hadoop被配置成以非分布式模式运行的一个独立Java进程。这对调试非常有帮助。
  下面的实例将已解压的 conf 目录拷贝作为输入,查找并显示匹配给定正则表达式的条目。输出写入到指定的output目录。


  $ mkdir input


  $ cp conf/*.xml input


  
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'



  $ cat output/*
  
伪分布式模式的操作方法

  Hadoop可以在单节点上以所谓的伪分布式模式运行,此时每一个Hadoop守护进程都作为一个独立的Java进程运行。
  
配置
  使用如下的 conf/hadoop-site.xml:
  
    fs.default.name
    localhost:9000
  
  
    mapred.job.tracker
    localhost:9001
  
  
    dfs.replication
    1
  
  
免密码ssh设置
  现在确认能否不输入口令就用ssh登录localhost:
  $ ssh localhost
  如果不输入口令就无法用ssh登陆localhost,执行下面的命令:
  $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa


  $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
  
执行
  格式化一个新的分布式文件系统:
  $ bin/hadoop namenode -format
  启动Hadoop守护进程:
  $ bin/start-all.sh
  Hadoop守护进程的日志写入到
${HADOOP_LOG_DIR} 目录 (默认是
${HADOOP_HOME}/logs).
  浏览NameNode和JobTracker的网络接口,它们的地址默认为:

  •   NameNode -
    http://localhost:50070/
  •   JobTracker -
    http://localhost:50030/
  将输入文件拷贝到分布式文件系统:
  $ bin/hadoop fs -put conf input
  运行发行版提供的示例程序:
  
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'

  查看输出文件:
  将输出文件从分布式文件系统拷贝到本地文件系统查看:
  $ bin/hadoop fs -get output output


  $ cat output/*
  或者
  在分布式文件系统上查看输出文件:
  $ bin/hadoop fs -cat output/*
  完成全部操作后,停止守护进程:
  $ bin/stop-all.sh
  
完全分布式模式的操作方法

  关于搭建完全分布式模式的,有实际意义的集群的资料可以在这里找到。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-86925-1-1.html 上篇帖子: Hadoop 开发环境配置 下篇帖子: 一个Hadoop难以查找的错误
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表