设为首页 收藏本站
查看: 1044|回复: 0

[经验分享] hadoop的源起与体系介绍

[复制链接]

尚未签到

发表于 2018-10-30 10:47:37 | 显示全部楼层 |阅读模式
1.Hadoop的源起——Lucene项目
  Hadoop 是由Doug Cutting用java语言书写的开源软件,其实现与Google类似的全文搜索功能,它提供了两种全文检索引擎的架构,包括完整的查询引擎和索引引擎。
  Hadoop早期版本发布在个人网站和SourceForge,2001年年底成为apache软件基金会jakarta的一个子项目。
  Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。
  对于大数量的场景,Lucene面对与Google同样的困难,这些迫使Doug Cutting学习和模仿Google解决这些问题的办法
  Doug Cutting首先开发了一个微缩版项目:Nutch
2.从lucene到nutch,从nutch到hadoop
  2003-2004年,Google公开了部分GFS和Mapreduce思想的细节,以此为基础Doug Cutting等人用了2年业余时间实现了DFS和Mapreduce机制,使Nutch性能飙升。
  Yahoo招安Doug Cutting及其项目。
  Hadoop 于 2005 年秋天作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会。2006 年 3 月份,Map-Reduce 和 Nutch Distributed File System (NDFS) 分别被纳入称为 Hadoop 的项目中,项目名字来源于Doug Cutting儿子的玩具大象。
  Hadoop核心部分:MapReduce(分布式计算程序)和HDFS(分布式文件管理系统)
3.Hadoop的架构

  Hadoop主要构成:Namenode、Secondary Namenode、DataNode、JobTracker、TaskTracker
  (1)Namenode
  HDFS的守护程序
  纪录文件是如何分割成数据块的,以及这些数据块被存储到哪些节点上
  对内存和I/O进行集中管理
  是个单点,发生故障将使集群崩溃
  (2)Secondary Namenode
  监控HDFS状态的辅助后台程序
  每个集群都有一个
  与NameNode进行通讯,定期保存HDFS元数据快照
  当NameNode故障可以作为备用NameNode使用
  (3)DataNode
  每台从服务器都运行一个
  负责把HDFS数据块读写到本地文件系统
  (4)JobTracker
  用于处理作业(用户提交代码)的后台程序
  决定有哪些文件参与处理,然后切割task并分配节点
  监控task,重启失败的task(于不同的节点)
  每个集群只有唯一一个JobTracker,位于Master节点
  (5)TaskTracker
  位于slave节点上,与datanode结合(代码与数据一起的原则)
  管理各自节点上的task(由jobtracker分配)
  每个节点只有一个tasktracker,但一个tasktracker可以启动多个JVM,用于并行执行map或reduce任务
  与jobtracker交互
  (6)Master与Slave
  Master:Namenode、Secondary Namenode、Jobtracker。
  Slave:Tasktracker、Datanode
  Master不是唯一的


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-628385-1-1.html 上篇帖子: Hadoop 源代码分析(六)RPC-Client 下篇帖子: 企业级Hadoop 2.x入门系列之一Apache Hadoop 2.x简介与版本_云帆大数据学院
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表