设为首页 收藏本站
查看: 880|回复: 0

[经验分享] Hadoop架构

[复制链接]

尚未签到

发表于 2018-10-31 13:30:32 | 显示全部楼层 |阅读模式
Hadoop的架构 Hadoop是一个能够对大量数据进行分布式处理的软件框架,实现了Google的MapReduce编程模型和框架,能够把应用程序分割成许多小的工作单元,并把这些单元放到任何集群节点上执行。在MapReduce中,一个准备提交执行的应用程序成为“作业job”,而从一个作业换分出的、运行于个计算节点的工作单元成为“任务task”。此外,Hadoop提供的分布式文件系统HDFS主要负责各个节点上的数据的存储,并实现了高吞吐率的数据读写。 在分布式存储和分布式计算方面,Hadoop都使用主/从(Master/Slave)架构。在一个配置完整的集群上想让Hadoop跑起来,需要在集群中运行一系列后台(daemon)程序。不同的祸胎程序扮演着不同的角色,这些角色由NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker组成,其中NameNode,Secondary NameNode,JobTracker运行在Master几点上,而在每个Slave节点上,部署着一个DataNode和TaskTracker,一边这个Slave服务器上运行的数据处理程序能尽可能直接处理本机的数据。对Master节点需要特别说明的是,在小集群中,Secondary NameNode可以属于某个从节点;在大型集群汇中,NameNode和JobTracker被分别部署在两台服务器上。 NameNodeNameNode是HDFS的守护程序,负责记录文件是如何分割成数据块的,以及数据块被存储到哪些数据节点上。它的主要功能是对内存及I/O进行集中管理。 一般来说,NameNode所在的服务器不存储任何用户信息或执行计算任务,以避免这些程序降低服务器的性能。如果其他从服务器因出现软硬件的问题而宕机,Hadoop集群仍旧可以继续运行,或者快速重启。但是由于NameNode是Hadoop集群中的一个单一节点,一旦NameNode服务器宕机,整个系统将无法运行。  DataNode
集群中的每个从服务器都运行着一个DataNode后台程序,它负责把HDFS数据块读写到本地的文件系统。当需要通过客户端读/写某个数据时,先由NameNode告诉客户端去哪个DataNode进行具体的读/写操作,然后,客户端直接与这个DataNode服务器的后台程序进行通信,并且对相应的数据块进行读/写操作。 Secondary NameNodeSecondary NameNode是一个用来监控HDFS状态的辅助后台程序。就像NameNode一样,每个集群都有一个Secondary NameNode,并且部署在一台单独的服务器上。Secondary NameNode不同于NameNode,它不接收或记录任何实时的数据变化,但是,它会与NameNode进行通信,以便定期地保存HDFS元数据的快照。由于NameNode是单点的,通过Secondary NameNode的快照功能,可以讲NameNode的宕机事件和数据损失降低到最小。同时,如果NameNode发生问题时,Secondary NameNode可以及时地作为备用NameNode继续使用。 JobTrackerJobTracker后台程序用来连接应用程序与Hadoop。用户代码提交到集群以后,由JobTracker决定哪个文件将被处理,并且为不同的task分配节点。同时,它还监控所有运行的task,一旦某个task失败了,JobTracker就会自动重新开启这个task,在大多数情况下这个task会被放在不同的节点上,当然,具体运行情况取决于重启的预设值。每个Hadoop集群只有一个JobTracker,一般运行在集群的Master节点上。 TaskTracker  TaskTracker与负责存储数据的DataNode相结合,其处理结构上也遵循主/从架构。JobTracker位于主节点,统领MapReduce工作,而TaskTracker位于从节点,独立管理各自的task。每个TaskTracker负责独立执行具体的task,而JobTracker负责分配task。虽然每个从节点上仅有唯一的一个TaskTracker,但是每个TaskTracker可以产生多个Java虚拟机(JVM),用于并行处理多个map以及reduce任务。TaskTracker的一个重要职责就是与JobTracker交互。如果IobTaskTracker无法准时地获取TaskTracker提交的信息,JobTracker就判定TaskTracker已经崩溃,并将任务分配给其他的节点处理。


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-629022-1-1.html 上篇帖子: Hadoop Balancer 下篇帖子: hadoop常用的端口配置
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表