设为首页 收藏本站
查看: 957|回复: 0

[经验分享] hadoop单节点搭建

[复制链接]

尚未签到

发表于 2018-10-28 14:43:32 | 显示全部楼层 |阅读模式
  企业大数据来源
  1.企业内部
  日志文件
  数据库
  **用户行为数据
  2.企业外部
  爬虫
  第三方购买(蚂蚁数据银行)--贵阳
  大数据=海量数据+复杂类型的数据
  hadoop是由谷歌的三篇论文
  《mapreduce》   --》mapreduce 分布式离线并行计算框
  架
  GFS     ——————》HDFS 分布式文件存储
  系统
  bigtable   ————》 HBASE  分布式数据库
  Hadoop四大核心模块
  common
  为其他模块提供基础设施
  hdfs
  分布式文件存储系统
  mapreduce
  分布式离线并行计算框架
  分为两个阶段  map  reduce
  yarn
  任务管理  资源调度
  一个新的框架,2.0之后产生的一个全新的框架(将任务
  调度资源管理与mappreduce分离)
  HDFS
  namenode(一台)
  主从结构,
  存储的是元数据,包括,文件类型属性,名称等
  

    datanode(多台)  可以存储不同的是数据块(block)每一个数据块默认大小(128M
  

  )这个参数可以自定义
  

            apache  hadoop。apache.org
  

  google
  hadoop功能
  **数据存储
  **数据计算模型
  文件系统,fat32 ntfs  ext4
  软件版本  0.2
  1.0
  2.0   2.5
  3.0
  HDFS组成
  一台namenode 服务器
  存储元数据
  和多台datanode 服务器
  存储真实数据()
  主从结构
  一台namenode
  

  多台datanode
  

  一个文件上传  呗分割为 多个数据块  每个数据块 默认
  

  大小
  128M
  hdfs 功能:
  namenode 主节点,存放文件元数据,文件名 文
  件目录 结构,文件属性
  datanode 存储在本地的文件数据,数据块校验
  yarn
  resourcemanage
  任务调度资源管理
  nodemanager
  节点管理服务
  任务管理 资源调度
  1.客户端 向 resourcemanager提交任务
  2 resourcemanager向namenode 分配一个 applicationManager,
  并找到一个容器生成一个 MR appmatr
  3该应用的管理者 向resourcemanager申请资源
  4资源申请完毕,找到nodemanager将容器中的         MRappmstr
  启动起来
  5map 和reduce 任务启动
  6mapreduce 程序启动 都要向 MRappmstr提交信息
  7程序结束,应用的管理者都要向 resourcemanager提交信息
  mapreduce
  计算分为两个阶段
  map    文件上传被分割程 多个任务,
  shuffer
  reduce  将map的结果输出
  系统安装
  1,创建虚拟机选择磁盘 不能小于50G
  2.安装类型 桌面
  3.分区默认
  为分布式 准备环境
  1, 设置网卡 ip为静态的
  vi /etc/sysconfig/network-scripts/ifcfg-eth0
  

                    DEVICE=eth0  

  TYPE=Ethernet
  UUID=b17e5d93-cd31-4166-827f-18cf14586777
  ONBOOT=yes           #把网卡设置成开机启动
  NM_CONTROLLED=yes
  BOOTPROTO=static          DHCP改成static
  HWADDR=00:0C:29:88:2A:28
  IPADDR=192.168.30.100
  PREFIX=24
  GATEWAY=192.168.30.2
  DNS1=192.168.30.2
  DNS2=202.96.209.5
  DEFROUTE=yes
  IPV4_FAILURE_FATAL=yes
  IPV6INIT=no
  NAME="System eth0"


  •   设置DNS
      vi /etc/sysconfig/network-scripts/ifcfg-eth0
      

            DNS1=192.168.30.2  
    DNS2=202.96.209.5
      把网络服务重启  service network restart
      3.设置主机名
      vi /etc/sysconfig/network
      hadoop-senior.beifeng.com
      4.关闭防火墙
      

      禁用linux中的安全子系统,是在selinux文件中
      路径/etc/sysconfig/selinux
      1.首先将selinux=disabled
      [root@java15 ~]# vi /etc/sysconfig/selinux
      selinux=disabled
      2.关闭防火墙
      [root@java15 ~]# service iptables stop
      3.设置防火墙开机不启动
      [root@java15 ~]# chkconfig iptables off
      4.查看防火墙是否完全关闭
      [root@java15 ~]# service iptables status
      iptables: Firewall is not running.
      5.添加主机名映射
      [root@hadoop-senior ~]# vi /etc/hosts
      192.168.30.100 hadoop-senior.xiaoping.com

  windows  C:\Windows\System32\drivers\etc
  6.设置普通用户 方便后期使用,后期的所有操作都使用普通用户
  useradd xiaoping

echo 123456 | passwd --stdin xiaoping
  安装jdk
  su -root  切换root用户创建

mkdir /opt/modules/  用于软件安装的目录
  

    # mkdir /opt/softwares/  用于软件下载目录  # chown beifeng:xiaoping /opt/modules/
  # chown beifeng:xiaoping /opt/softwares/
  hadoop-2.5.0.tar.gz
  #su xiaoping  切换xiaoping用户下
  解压jdk
  $ tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/modules/
  配置 jdk环境变量
  /opt/modules/jdk1.7.0_67
  # vi /etc/profile   用root用户
  ##JAVA_HOME
  
JAVA_HOME=/opt/modules/jdk1.7.0_67
  
export PATH=$PATH:$JAVA_HOME/bin
  

  卸载系统自带的jdk、
  # rpm -qa |grep -i java
  # rpm -e --nodeps tzdata-java-2012j-1.el6.noarch
  # rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-
  

  1.50.1.11.5.el6_3.x86_64

rpm -e --nodeps java-1.7.0-openjdk-1.7.0.9-2.3.4.1.el6_3.x86_64
  

    # vi ~/.bashrc    普通用户环境配置可以选择不配  ##JAVA_HOME
  
JAVA_HOME=/opt/modules/jdk1.7.0_67
  
export PATH=$PATH:$JAVA_HOME/bin
  $ source /etc/profile
  更新文件
  # source  ~/.bashrc
  安装hadoop
  #tar -zxvf hadoop-2.5.0-cdh5.3.6.tar\(1\).gz  -C /opt/modules/
  

  hadoop安装包下的配置文件所在目录
  /opt/modules/hadoop-2.5.0-cdh5.3.6/etc/hadoop
  

    配置hadoop环境变量  

  hadoop-env.sh  mapred-env.sh  yarn-env.sh  三个全部修改javahome
  export JAVA_HOME=/opt/modules/jdk1.7.0_67
  修改 core-site.xml

fs.defaultFShdfs://hadoop-senior.beifeng.com:8020hadoop.tmp.dir/opt/modules/hadoop-2.5.0-cdh5.3.6/data修改slaves文件  --》指定那台服务器是datanodehadoop-senior.beifeng.com   比如三台主机 每行一个主机名or iphadoop-senior.beifeng1.comhadoop-senior.beifeng2.com
hdfs-site.xml
副本数不能大于主机个数(hdfs当节点不切换文件,集
群会)
dfs.replication1
格式化文件系统
$ bin/hdfs namenode -format
启动namenode 和datanode 服务
$ sbin/hadoop-daemon.sh start namenode 启动namenode
$ sbin/hadoop-daemon.sh start datanode 启动datanode
查看服务进程
[beifeng@hadoop-senior hadoop-2.5.0]$ jps
10031 Jps
9954 DataNode
9845 NameNode
$ bin/hdfs dfs -mkdir /input  创建文件夹在hdfs上
$ bin/hdfs dfs -put /opt/modules/yy.txt /input 上传文件
$ bin/hdfs dfs -cat /input/yy.txt 查看文件
配置 yarn  资源管理,任务调度yarn-env.sh  mapred-env.sh
环境变量:export JAVA_HOME=/opt/modules/jdk1.7.0_67**resourcemanager**nodemanager
yarn-site.xml
yarn.nodemanager.aux-servicesmapreduce_shuffleyarn.resourcemanager.hostnamehadoop-senior.beifeng.commapred-site.xml
mapreduce.framework.nameyarn
启动yarn
$ sbin/yarn-daemon.sh start resourcemanager
$ sbin/yarn-daemon.sh start nodemanager
浏览器
http://hadoop-senior.beifeng.com:8088/cluster
利用官方自带jar包进行文件的单词统计
$ bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-exam
ples-2.5.0.jar wordcount /input/ /output
$ bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-
cdh5.3.6.jar wordcount /input/ /output
查看统计结果
$ bin/hdfs dfs -cat /output/par*
配置日志服务器
yarn-site.xml
yarn.log-aggregation-enabletrueyarn.log-aggregation.retain-seconds86400
mapred-site.xml
mapreduce.jobhistory.addresshadoop-senior.beifeng.com:10020mapreduce.jobhistory.webapp.addresshadoop-senior.beifeng.com:19888
重启yarn
$ sbin/yarn-daemon.sh stop resourcemanager
$ sbin/yarn-daemon.sh stop nodemanager
$ sbin/yarn-daemon.sh start resourcemanager
$ sbin/yarn-daemon.sh start nodemanager
启动historyserver服务
$ sbin/mr-jobhistory-daemon.sh start historyserver
$ bin/yarn jar share/hadoop/mapreduce/hadoop-ma
preduce-examples-2.5.0.jar wordcount /input/ /output1
源文件分隔符\t
input表示输入路径
output表示输出路径 必须是不存在的
都是HDFS里面的路径
解决警告:替换native包
将native压缩包解压至/opt/modules/hadoop-2.5.0/lib 替换原来的native
问题:用户操作的问题不要用root用户启动服务切换普通用户的时候记得去虚拟机查看是否已经切换普通用户/opt目录下 的两个文件夹 一定是属于普通用户的编辑配置文件的时候 notepad 用普通用户去登陆操作,虚拟机环境问题  防火墙   网关 ip 主机名本地hosts文件添加映

查看日志信息   tail -n50查看后五十行日志信息
/opt/modules/hadoop-2.5.0/logs
$ tail -n50 hadoop-beifeng-namenode-hadoop-senior.beifeng.com.log


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-627604-1-1.html 上篇帖子: hadoop多次格式化namenode造成datanode无法启动问题解决 下篇帖子: Hive报错,NoSuchMethodError: org.apache.hadoop.mapred
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表