设为首页 收藏本站
查看: 1159|回复: 0

[经验分享] 【笔记】从技术角度思考Hadoop::

[复制链接]

尚未签到

发表于 2018-10-30 11:49:06 | 显示全部楼层 |阅读模式
  学习笔记:王家林老师的hadoop课程  链接:http://edu.51cto.com/course/course_id-1151.html
  Hadoop --- 适合海量数据的分布式存储与计算平台
  存储与计算平台:Hadoop是一个平台,在这个平台上可以实现存储与计算
  分布式:单虚拟机程序变为多虚拟机程序,也就是我的一个计算任务可以被多台虚拟机去计算完成
  (这中间有一个任务分配过程)
  海量数据:Hadoop的对象可以是海量数据,同样也可以是少量数据,这时候我们可以用java程序进行处理,而java程序也可以转化为Hadoop程序。在实践上我们知道,海量数据指1T级别以上的数据,少量数据虽然可以用Hadoop去做,但我们可以发现效率不如单机版高,不如单机版快。
  当数据量很少的时候,我们的侧重点应该是单机如何更快的去完成,而不是将时间花费在怎样将这些数据分配到多台虚拟机上。但如果是海量数据就不同了,将海量数据交给一台虚拟机去计算处理那样有可能负载过高,这时候我们的侧重点就应该在如何将这些数据分配到多台虚拟机上,从而使数据处理完成的更加高效。
  适合:海量数据可以凸显Hadoop的优势,小数据虽然可以处理,但从效率等多方面考虑,Hadoop就不提倡了。

  Hadoop图是一个庞大的生态系统图,是由一个生态链构成的
  核心是3和5 map reduce和HDFS
  ★HDFS: Hadoop Distributed File System 分布式文件系统
  提供了一套机制可以让我们的数据可以分布在不同的计算机上,我们不用关心数据到底是怎样存储的,HDFS可以完成
  实现Hadoop的存储功能,是文件和程序的存储系统

  •   HDFS的架构
      主从结构:主节点(namenode)只有一个,从节点(datanodes)有很多个
      主节点负责: 接收用户操作请求;维护文件系统的目录结构;管理文件与block之间的关系,block与datanode之间的关系(整个文件系统是分块的,数据存储在块上)。
      从节点负责:存储文件;文件被分成block存储在磁盘上;为保证数据安全,文件会有多个副本。
      namenode负责管理项目(数据存储与操作),相当于项目经理
      datanodes负责存储数据,相当于开发工程师
  ★map reduce: 并行计算框架 (核心的核心)
  海量数据的分布式计算框架
  计算代码在不同机器上运行,每台机器只做计算中的一部分(因为其只包括一部分数据),然后再把各个机器的计算结果汇总起来

  •   map reduce 的架构
      主从结构:主节点(JobTracker)只有一个,从节点(TaskTrackers)有很多个
      主节点负责:接收客户提交的计算任务;把计算任务分给TaskTrackers执行;监控TaskTracker的执行情况(是否分配成功、工作进度、工作结果)。
      从节点负责:执行主节点分配的计算任务。
      如果一台虚拟机无法完成分配的任务,那么主节点会透明将任务分配到其他虚拟机上
  1:通过http协议是可以访问我们map ruduce的
  6:日志数据
  7:完成传统关系型数据和Hadoop中数据的相互转换,传统关系中的数据可以导入到Hadoop中,Hadoop中的数据也可以导入到传统关系型数据中
  14:hbase 时时处理大数据读写操作的,尤其适合一些在线系统(大数据:构建方式、数据量)
  Hadoop的特点:

  •   扩容能力:能可靠地存储和处理千兆字节数据
  •   成本低:可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。
  •   高效率:通过分发数据,hadoop可以在数据所在的节点上并行地处理它们,这使得处理非常的快速
  •   可靠性:hadoop能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署计算任务


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-628454-1-1.html 上篇帖子: 编译hadoop2.6.0 --- 64位源代码(能力工场原创) 下篇帖子: Ubuntu下配置Hadoop环境
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表