设为首页 收藏本站
查看: 1493|回复: 0

[经验分享] Hadoop学习笔记-入门

[复制链接]

尚未签到

发表于 2018-10-30 11:28:19 | 显示全部楼层 |阅读模式
  新学期开始了,在学校的日子开始倒计时~~~有点矫情了。
  寒假在广州呆了一个月,没做什么,出去转了一圈,依然不知道找工作的事水有多深。期间看了一篇博文,感触良多。此前虽然钻研过不少技术,但是说白了就是CURD,没意思,没技术含量。早就打算坐下来看看Hadoop,但是一直没有找到合适的资料,昨天终于搜集到一份比较完整的,就此开始Hadoop的学习~~共勉!!
  学习视频下载地址 http://pan.baidu.com/share/link?shareid=1338450930&uk=3574016443
  PS:学习Hadoop之前需要对Linux有基本的了解,参考之前的一篇文章 Linux学习笔记
  使用到的软件 VMWare9.0  centOS6.4 X64  Hadoop1.2.1 JDK1.7 X64
  虚拟机的安装不再赘述,JDK的安装请参考《Linux学习笔记》一文。
  软件安装规则
  /opt  父目录
  /opt/modules      存放软件的安装目录
  /opt/softwares    存放软件包(tar、bin、zip)
  /opt/tools            存放工具目录(eclipse)
  /opt/data             存放一些测试数据
  /home/hadoop    存放工具盒测试数据目录
  安装Hadoop
  1.解压   tar -zxvf hadoop-1.2.1.tar.gz
  2.移动软件到安装目录   mv hadoop-1.2.1 /opt/modules/
  3.配置环境变量,编辑/etc/profile文件,添加如下内容
  ##HADOOP
  export HADOOP_HOME=/opt/modules/hadoop-1.2.1
  export PATH=$PATH:/opt/modules/hadoop-1.2.1/bin
  以root用户登录,执行 source /etc/profile 使配置生效
  4.测试 hadoop
DSC0000.jpg

  出现警告,参考博文 http://chenzhou123520.iteye.com/blog/1826002
  5.配置Hadoop中JDK的安装目录
  在/opt/modules/hadoop-1.2.1/conf/hadoop-env.sh中设置
  export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_25
  6.测试MapReduce程序
  ①在/opt/data目录下新建input目录
  ②复制hadoop目录下conf目录下的xml文件到/opt/data/input
  cp /opt/modules/hadoop-1.2.1/conf/*.xml /opt/data/input/
  ③在hadoop目录下执行以下命令
  hadoop jar hadoop-examples-1.2.1.jar grep /opt/data/input/ /opt/data/output 'dfs[a-z.]+'
  执行完成之后会在data目录下生成output文件夹
DSC0001.jpg

  程序功能:在xml文件中找出所有以dfs开头的单词
  Apache Hadoop 伪分布模式安装
  ①关闭防火墙和禁用SELnux
  #service iptables status    查看防火墙状态
  #service iptables stop      关闭防火墙
  #vim /etc/sysconfig/selinux   设置SELINUX=disabled
  ②设置静态IP地址
  #vi /etc/sysconfig/network-scripts/ifcfg-eth0 (也可以手动设置)
  测试中的配置为IP:192.168.110.130   网关:192.168.110.2  子网掩码:255.255.255.0
  ③修改Hostname
  #hostname hadoop-master
  #vi /etc/sysconfig/network    修改配置文件,永久生效
  ④IP与Hostname绑定
  #vi /etc/hosts
  在hosts文件中加入192.168.110.130 hadoop-master.dragon.org hadoop-master
  ⑤设置SSH自动登录--所有守护进程彼此通过SSH协议进行通信
  $ssh-keygen -t rsa
DSC0002.jpg

  用命令ls -al查看文件列表,生成.ssh文件,默认权限为700
DSC0003.jpg

  进入.ssh文件夹,已生成公钥和私钥
DSC0004.jpg

  将公钥复制一份到当前目录,文件名改为authorized_keys
  $cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
DSC0005.jpg

  authorized_keys文件的权限为644
DSC0006.jpg

  密钥信息存储在known_hosts文件中。
  ⑥安装JDK
  $./jdk-6u24-linux-i586.bin
  more /etc/profile 查看Java和Hadoop的配置
DSC0007.jpg

  source /etc/profile  使配置生效
  在Windows中使用UltraEdit登录FTP服务器修改配置文件
DSC0008.jpg

  在/opt/modules/hadoop-1.2.1/conf/core-site.xml文件中做如下配置
  
  fs.default.name
  hdfs://hadoop-master.dragon.org:9000
  
  
  hadoop.tmp.dir
  /opt/data/tmp
  
  

  需要手动创建/opt/data/tmp目录
  在/opt/modules/hadoop-1.2.1/conf/hdfs-site.xml文件中做如下配置
  
  dfs.replication
  1
  
  
  dfs.permissions
  false
  
  

  在/opt/modules/hadoop-1.2.1/conf/mapred-site.xml文件中做如下配置
  
  mapred.job.tracker
  hadoop-master.dragon.org:9001
  
  

  在/opt/modules/hadoop-1.2.1/conf/slaves文件中做如下配置。将localhost改为如下。
  DataNodes(块存储)  TaskTrackers(任务执行)通常在同一台机器上,用slaves文件配置。
hadoop-master.dragon.org  指定Secondary NameNode(辅助元数据服务器)在masters文件中配置
hadoop-master.dradon.org  -------------------------------------------------------------------
  进入到/opt/modules/hadoop-1.2.1/bin目录下,使用 ./hadoop查看命令选项。
  运行格式化命令 ./hadoop namenode -format
DSC0009.jpg

  启动dfs,命令 start-dfs.sh
DSC00010.jpg

  使用jps命令查看Java进程
DSC00011.jpg

  NameNode  DataNode SecondaryNameNode 都已启动
  在浏览器中测试http://192.168.110.130:50070/dfshealth.jsp
DSC00012.jpg

  接下来启动 start-mapred.sh
DSC00013.jpg

  通过jps命令查看Java进程
DSC00014.jpg

  JobTracker  TaskTracker均已启动。
  通过http://hadoop-master.dragon.org:50030/jobtracker.jsp查看
DSC00015.jpg

  关闭
  stop-mapred.sh
  stop-dfs.sh
  通过jps查看关闭情况。
  还可以通过start-all.sh来启动,通过stop-all.sh来关闭。
  启动顺序:NameNode  DataNode SecondaryNameNode  JobTracker  TaskTracker
  停止顺序:JobTracker  TaskTrackerNameNode  DataNode SecondaryNameNode
  还可以按照以上顺序分别启动或者停止每个进程。
  hadoop-daemon.sh start namenode
  hadoop-daemon.sh start datanode
  hadoop-daemon.sh start secondarynamenode
  hadoop-daemon.sh start jobtracker
  hadoop-daemon.sh start tasktracker
  至此,Hadoop安装成功~~
  日志文件,两种格式: .log  .out   日志文件存储目录可在conf/hadoop-enc.sh文件中配置。
DSC00016.jpg .log 日志文件,在conf/log4j.properties文件中配置,采用日常滚动文件后缀策略来命名日志文件,内容比较全。

  .out 日志文件,记录标准输出和标准错误,内容比较少。默认情况,系统保留最新的5个日志文件。
  hadoop-root-datanode-hadoop-master.log
  ①       ②       ③                   ④           ⑤
  ①框架的名称
  ②启动守护进程的用户名
  ③守护进程的名称
  ④运行守护进程的名称
  ⑤日志的格式,log和out
  三大基础配置文件:
  ①core-site.xml 配置Hadoop Common Project 相关的属性配置,Hadoop1.x框架基础属性的配置
  ②hdfs-site.xml 配置HDFS Project 文件系统相关的属性
  ③mapred-site.xml 配置MapReduce 框架相关的属性
  配置文件
  ①masters 主节点,并不是配置Hadoop中的主节点的相关信息,配置HDFS辅助接点的信息
  ②slaves从节点,配置Hadoop1.x中的HDFS和MapReduce框架的从节点信息
  Hadoop1.x 五大服务(守护进程)
  NameNode DataNode SecondaryNameNode JobTracker TaskTracker
DSC00017.jpg




运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-628430-1-1.html 上篇帖子: 使用java调用hadoop接口学习笔记 下篇帖子: 集群环境下Hadoop2.5.2+Zookeeper3.4.6+Hbase0.98+Hive1.0.0安装目录总汇
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表