设为首页 收藏本站
查看: 1143|回复: 0

[经验分享] Hadoop初学指南(3)--HDFS的体系结构

[复制链接]

尚未签到

发表于 2018-10-31 08:11:59 | 显示全部楼层 |阅读模式
  在前两节分别介绍了hadoop的安装以及HDFS的shell操作,本文紧接着前两文进行介绍
  本文主要对HDFS体系结构进行了基本的介绍。所有涉及到的源码都是hadoop-1.1.2的源码。
  我们知道在Hadoop安装部署完成之后会有5个进程,分别是NameNode,DataNode,SecondaryNameNode,JobTracker,TaskTracker。那么这5个进程分别是干什么的呢?本文将对此进行一些说明。
  HDFS是由两个核心组件构成的,一个是NameNode,一个是DataNode,NameNode是主节点,DataNode是从节点,主节点只有一个,而从节点可以有多个。
  (1)NameNode
  是整个文件系统的管理节点。它维护着整个文件系统的文件目录树,文件/目录的元信息(比如权限,副本数,属主属组等)和每个文件对应的数据块列表。接收用户的操作请求。
  进入hadoop的安装目录,可以看到下面有一个tmp目录
DSC0000.jpg

  进入tmp/dfs中,里面的name目录就是存放NameNode的信息的
DSC0001.jpg

  进入name/current目录后,可以看到里面有4个文件:
DSC0002.jpg

  其中:
  ①fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息。如果fsimage如果丢了,那么整个HDFS系统就会down掉,因此可以对fsimage进行备份。根据这个思路,我们可以使hadoop从多个地方读取这个文件。
  进入到hadoop/conf目录中,查看里面的core-site.xml配置文件,可以看到第二项就是配置文件的查找目录的:
DSC0003.jpg

  同时我们也发现在文件最上方,有一个override的字样,说明这个配置文件也只是重写了其他地方的配置信息。
  在源码包的src/hdfs中有一个hdfs-default.xml的源配置文件,其中找到name为dfs.name.dir的配置选项
DSC0004.jpg

  dfs.name.dir对应的value的前半部分${hadoop.tmp.dir}正是core-site.xml配置文件中的name,在运行时会被解析成其中的value,如果想配置多个读取地址,只需要在主配置文件后加入别的目录,以逗号隔开,如图中的/assss。
  ②edits:操作日志文件。其中保存的事用户操作的事务性动作。例如我们在操作HDFS中,例如上传或者下载,如果出现网络中断,最后日志不会出现上传成功的记录,那么HDFS会把已经上传的文件删除,用户将不会看到。
  ③fstime:保存最近一次checkpoint的时间
  以上这些文件是保存在linux的文件系统中。
  (2)DataNode
  提供真实文件数据的存储服务。DataNode存储文件时是按照文件块来存储的。
  文件块(block)是最基本的存储单位。对于文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称一个Block。

  hdfs在对数据存储进行block划分时,如果文件大小超过block,那么按照block大小进行划分;不如block>  HDFS默认Block大小是64MB,以一个256MB文件,共有256/64=4个Block.在源码src/hdfs/hdfs-default.xml中的dfs.block.size中定义了默认大小:
DSC0005.jpg

  但不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。
  同时HDFS是多复本机制。默认是三个。
  (3)SecondaryNameNode
  SecondaryNameNode是HA的一个解决方案。但不支持热备。配置即可。
  执行过程:从NameNode上下载元数据信息(fsimage,edits),然后把二者合并,生成新的fsimage,在本地保存,并将其推送到NameNode,同时重置NameNode的edits.因此NameNode中的edits会定期合并到fsimage中。
  在源码的src/core中有一个core-default.xml文件。其中fs.checkpoint.period和fs.checkpoint.size的配置信息,fs.checkpoint.period表示的是刷新周期,而fs.checkpoint.size表示的事刷新大小,当edits的大小超过fs.checkpoint.size定义的大小,不管有没有到刷新周期,edits都会自动刷新到fsimage中,因此fs.checkpoint.size的优先级要高于fs.checkpoint.period。fs.checkpoint.period默认是一小时,而fs.checkpoint.size默认是64M
DSC0006.jpg



运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-628690-1-1.html 上篇帖子: hadoop平台搭建-多节点详细教程 下篇帖子: hadoop中启动datanode或者namenode没有启动起来
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表