设为首页 收藏本站
查看: 1020|回复: 0

[经验分享] ximengchj

[复制链接]

尚未签到

发表于 2017-12-17 11:32:02 | 显示全部楼层 |阅读模式
目的
  这篇文档描述如何安装和配置一个单一节点的Hadoop,以便你可以快速使用hadoop mapreduce和Hadoop Distributed File System (HDFS)的一些简单操作。

先决条件

支持平台


  • GNU/Linux 是受支持的开发和生成平台。Hadoop已经证明了2000各节点的GNU/Linux 集群。
  • Windows也是受支持的平台,但是一下步骤只是用于Linux。要在Windows上安装,情况 wiki page。
所需软件
  Linux平台所需软件包括:


  • Java。推荐的Java版本在 HadoopJavaVersions中描述。
  • ssh必须安装。推荐安装pdsh。
安装软件
  如果你还没有安装这些软件:
  $ sudo apt-get install ssh  $ sudo apt-get install pdsh

下载
  获取最新的Hadoop发行版,从Apache Download Mirrors中选一个最新的稳定版下载。

准本开始Hadoop集群
  解压下载的Hadoop,编辑etc/hadoop/hadoop-env.sh定义一些参数如下:
  # set to the root of your Java installation  export JAVA_HOME=/usr/java/latest
  试下下面命令:
$ bin/hadoop  此处会显示hadoop脚本用法。
  
现在你已经准备好了,Hadoop集群支持三种模式之一:


  • Local (Standalone) Mode(本地模式)
  • Pseudo-Distributed Mode(为分布模式)
  • Fully-Distributed Mode(全分布模式)
Standalone操作
  默认情况下,Hadoop是以一个Java进程运行为非分布模式,有利于调试。
  
下面示例复制解压的conf文件夹作为输入,然后查找显示每个匹配正则表达式的项,输出结果写到到output文件夹。
  $ mkdir input  $ cp etc/hadoop/*.xml input
  $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0-alpha2.jar grep input output 'dfs[a-z.]+'
  $ cat output/*

Pseudo-Distributed 操作
  Hadoop也可以伪分布的方式运行在一个节点中,每个Hadoop进程运行在单独的Java进程中。

配置
  使用如下
  
etc/hadoop/core-site.xml:
<configuration>  <property>
  <name>fs.defaultFS</name>
  <value>hdfs://localhost:9000</value>
  </property>
  
</configuration>
  etc/hadoop/hdfs-site.xml:
<configuration>  <property>
  <name>dfs.replication</name>
  <value>1</value>
  </property>
  
</configuration>

设置ssh密码
  现在检查你是否可以不需要密码使用ssh登陆到本地。
$ ssh localhost  如果ssh需要密码登陆,执行下面命令:
  $ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa  $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
  $ chmod 0600 ~/.ssh/authorized_keys

执行
  下面的说明是在本地运行MapReduce作业。如果你想基于YARN运行作业,请看YARN on Single Node.


  •   格式化文件系统:
    $ bin/hdfs namenode -format
  •   启动NameNode守护进程和DataNode守护进程:
    $ sbin/start-dfs.sh
    hadoop守护进程日志写在$HADOOP_LOG_DIR文件夹中(默认是$HADOOP_HOME/logs)。
  •   浏览NameNode的web接口;默认在:
      

    NameNode - http://localhost:9870/
  •   为需要运行的MapReduce作业创建HDFS文件夹:
      $ bin/hdfs dfs -mkdir /user  $ bin/hdfs dfs -mkdir /user/<username>

  •   把input文件复制到分布式文件夹中:
      $ bin/hdfs dfs -mkdir input  $ bin/hdfs dfs -put etc/hadoop/*.xml input

  •   运行一些提供实例:
      $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0-alpha2.jar grep input output 'dfs[a-z.]+'
  •   检查输出文件:把分布式文件系统中的输出文件拷贝到本地文件系统然后查看:
      $ bin/hdfs dfs -get output output  $ cat output/*
      或者
      
    直接在分布式文件系统中浏览:
      $ bin/hdfs dfs -cat output/*
  •   完成后,关闭守护进程:
    $ sbin/stop-dfs.sh
    YARN on a Single Node

    你可以在伪分布模式上通过设置一些参数和启动ResourceManager和NodeManager 守护进程执行基于YARN的MapReduce作业。  
    以下说明假设你已经执行完上面1-4步骤。

  •   配置参数如下:
      
    etc/hadoop/mapred-site.xml:
    <configuration>  
    <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
      
    </property>
      
    </configuration>
      etc/hadoop/yarn-site.xml:
    <configuration>  
    <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
      
    </property>
      
    <property>
      <name>yarn.nodemanager.env-whitelist</name>
      <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
      
    </property>
      
    </configuration>

  •   启动ResourceManager和NodeManager守护进程:
      $ sbin/start-yarn.sh
  •   浏览ResourceManager的web接口,默认是:
      

    ResourceManager - http://localhost:8088/
  • 运行一个MapReduce作业。
  •   当你完成后,关闭守护进程:
      $ sbin/stop-yarn.sh
    全分布操作
      对于安装全分布而不是测试的集群的信息,请看集群安装。


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-424983-1-1.html 上篇帖子: Hadoop 3、Hadoop 分布式存储系统 HDFS(好多彩色图) 下篇帖子: hadoop伪分布式环境搭建
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表