设为首页 收藏本站
查看: 671|回复: 0

[经验分享] 《写给大忙人的Hadoop 》读书笔记(二)Hadoop介绍

[复制链接]

尚未签到

发表于 2018-10-29 10:07:43 | 显示全部楼层 |阅读模式
  本文从Hadoop是什么、能做什么、谁使用三个主要问题去讲解。对于重点知识如MapReduce、YARN、Hadoop生态系统内的其他组件(HBase、Pig、Hive、Zookeeper等)的介绍和使用这里不做详细说明,需要大家对这些内容扩展并深入学习。
  1、Hadoop是什么及功能
  1、2002年,Hadoop作为一个支持Web搜索引擎的单独软件项目被创立,如今已成为一个用来分析大量不同类型数据的工具和应用程序(如HBase,Hive等)的生态系统。
  Hadoop数据处理的一些功能如下:
  1.1、核心部分在Apache许可下开源。
  1.2、分析数据通常涉及大量非结构化(非关系型)数据集,数据集有时在千兆兆字节(petabyte,PB,10的15次方字节)范围内。
  1.3、传统上,数据可以使用可扩展的HDFS存储在多台服务器上。现在一些新的设计可以使用光纤存储或基于网络的存储子系统。
  1.4、许多应用程序和工具都基于第1版Hadoop MapReduce编程模型。
  1.5、Hadoop MapReduce作业可以从一台服务器扩展到数千台机器和数以万计的处理器核心。(大数据核心概念之一横向扩展)
  1.6、配置YARN(另一种资源调度器)的Hadoop2支持其他编程模型(包括V1 MapReduce)。
  1.7、Hadoop核心组件被设计为商品硬件和云上运行。
  1.8、Hadoop提供了许多能够在大量的服务器上操作的容错功能。
  1.9、许多项目和应用程序建立在Hadoop基础设施之上。
  1.10、虽然核心组件使用Java编写,但Hadoop程序几乎可以使用任何编程语言编写。
  Hadoop 2.x 安装的核心组件包括HDFS和YARN资源管理器(hadoop 1.x没有YARN)。HDFS文件系统能够提供对数据跨Hadoop集群的分布式访问,它被设计为满足大数据处理,但并非是一种高性能并行文件系统。YARN负责管理集群资源,有时可以视为配备数据局部性服务的集群操作系统。Hadoop应用程序,包括哪些使用MapReduce引擎的组件,都作为YARN之上的应用程序框架运行。
  为了支持巨大的可扩展性,Hadoop的设计牺牲了一些效率。在较小的数据规模下,Hadoop 解决一些问题的方法的效率可能不高。随着问题或数据集规模的扩大,Hadoop开始显示其处理大型问题的能力。
  Hadoop还有一个非常大的用处就是,作为数据湖,正如前一篇博客中讲解的那样,数据湖可存储任何未处理的数据。
  2、使用Hadoop:管理员、用户或两种身份兼具
  传统上,
  系统管理员负责安装、监控/管理和调整Hadoop软件;
  用户将开发Hadoop应用程序、处理数据,并使用各种Hadoop工具实现各种业务需求;
  现在,管理员和用户之间的界限可能变模糊,称为了一个混合的新角色,即通常说的“开发运维人员”(devops).
  Hadoop可以在一台笔记本电脑、大型集群,或介于这两者之间的任何场景下访问。
  以下是管理员和用户两个角色的部分职责:
  2.1管理员(运维):
  ★安装Hadoop和管理软件包。
  ★集群基本管理
  ★监控/管理Hadoop 服务
  ★调整Hadoop服务和已安装的工具软件包
  2.2最终用户(开发)
  ★利用现有的Hadoop工具检查工作流和存储
  ★使用MapReduce工具
  ★创建Hadoop应用程序
  ★编写直接使用YARN工作的非MapReduce应用程序
  ★手工向/从HDFS导出/导入数据
  ★利用Hadoop工具自动将数据导入/导出HDFS
  更多详细内容建议购买阅读《写给大忙人的Hadoop 2》正版书籍。


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-627851-1-1.html 上篇帖子: Hadoop监控分析工具Dr.Elephant 下篇帖子: ambari2.0.0,hadoop2.6重启namenode报错
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表