设为首页 收藏本站
查看: 570|回复: 0

[经验分享] Apache Hadoop-CZ小蚂蚱

[复制链接]

尚未签到

发表于 2018-11-17 09:09:50 | 显示全部楼层 |阅读模式
  1. Hadoop介绍
  Hadoop是Apache旗下的一个用java语言实现开源软件框架,是一个开发和运行处理大规模数据的软件平台。允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。
DSC0000.jpg

  狭义上说,Hadoop指Apache这款开源框架,它的核心组件有:
  HDFS(分布式文件系统):解决海量数据存储
  YARN(作业调度和集群资源管理的框架):解决资源任务调度
  MAPREDUCE(分布式运算编程框架):解决海量数据计算
  广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。
DSC0001.jpg

  当下的Hadoop已经成长为一个庞大的体系,随着生态系统的成长,新出现的项目越来越多,其中不乏一些非Apache主管的项目,这些项目对HADOOP是很好的补充或者更高层的抽象。比如:
  HDFS:分布式文件系统
  MAPREDUCE:分布式运算程序开发框架
  HIVE:基于HADOOP的分布式数据仓库,提供基于SQL的查询数据操作
  HBASE:基于HADOOP的分布式海量数据库
  ZOOKEEPER:分布式协调服务基础组件
  Mahout:基于mapreduce/spark/flink等分布式运算框架的机器学习算法库
  Oozie:工作流调度框架
  Sqoop:数据导入导出工具(比如用于mysql和HDFS之间)
  Flume:日志数据采集框架
  Impala:基于Hadoop的实时分析
  2. Hadoop发展简史
  Hadoop是Apache Lucene创始人 Doug Cutting 创建的。最早起源于Nutch,它是Lucene的子项目。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题:如何解决数十亿网页的存储和索引问题。
  2003年Google发表了一篇论文为该问题提供了可行的解决方案。论文中描述的是谷歌的产品架构,该架构称为:谷歌分布式文件系统(GFS),可以解决他们在网页爬取和索引过程中产生的超大文件的存储需求。
  2004年 Google发表论文向全世界介绍了谷歌版的MapReduce系统。
  同时期,Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目HADOOP,到2008年1月,HADOOP成为Apache顶级项目,迎来了它的快速发展期。
  2006年Google发表了论文是关于BigTable的,这促使了后来的Hbase的发展。
  因此,Hadoop及其生态圈的发展离不开Google的贡献。
  3. Hadoop特性优点
  扩容能力(Scalable):Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可用方便的扩展到数以千计的节点中。
  成本低(Economical):Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。
  高效率(Efficient):通过并发数据,Hadoop可以在节点之间动态并行的移动数据,使得速度非常快。
  可靠性(Rellable):能自动维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。
  4. Hadoop国内外应用
  不管是国内还是国外,Hadoop最受青睐的行业是互联网领域,可以说互联网公司是hadoop的主要使用力量。
  国外来说,Yahoo、Facebook、IBM等公司都大量使用hadoop集群来支撑业务。比如:
  Yahoo的Hadoop应用在支持广告系统、用户行为分析、支持Web搜索等。
  Facebook主要使用Hadoop存储内部日志与多维数据,并以此作为报告、分析和机器学习的数据源。
  国内来说,BAT领头的互联网公司是当仁不让的Hadoop使用者、维护者。比如Ali云梯(14年国内最大Hadoop集群)、百度的日志分析平台、推荐引擎系统等。
DSC0002.jpg

  国内其他非互联网领域也有不少hadoop的应用,比如:
  金融行业: 个人征信分析
  证券行业: 投资模型分析
  交通行业: 车辆、路况监控分析
  电信行业: 用户上网行为分析
  总之:hadoop并不会跟某种具体的行业或者某个具体的业务挂钩,它只是一种用来做海量数据分析处理的工具。


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-636047-1-1.html 上篇帖子: Linux下使用Openssl颁发Apache证书 下篇帖子: Apache二进制免编译安装和参数配置
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表