设为首页 收藏本站
查看: 1308|回复: 0

[经验分享] HADOOP背景介绍

[复制链接]

尚未签到

发表于 2017-12-17 09:30:54 | 显示全部楼层 |阅读模式
1. HADOOP背景介绍
1.1 什么是HADOOP
  1. HADOOP是apache旗下的一套开源软件平台
  2. HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理
  3. HADOOP的核心组件有
  A. HDFS(分布式文件系统)
  B. YARN(运算资源调度系统)
  C. MAPREDUCE(分布式运算编程框架)
  4. 广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈
1.2 HADOOP产生背景
  1. HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。
  2. 2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案
  ——分布式文件系统(GFS),可用于处理海量网页的存储
  ——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。
  3. Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目HADOOP,到2008年1月,HADOOP成为Apache顶级项目,迎来了它的快速发展期。
1.3 HADOOP在大数据、云计算中的位置和关系
  1. 云计算是分布式计算、并行计算、网格计算、多核计算、网络存储、虚拟化、负载均衡等传统计算机技术和互联网技术融合发展的产物。借助IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等业务模式,把强大的计算能力提供给终端用户。
  2. 现阶段,云计算的两大底层支撑技术为“虚拟化”和“大数据技术
  3. 而HADOOP则是云计算的PaaS层的解决方案之一,并不等同于PaaS,更不等同于云计算本身。
1.4 国内外HADOOP应用案例介绍
  1、HADOOP应用于数据服务基础平台建设
DSC0000.png

  2/HADOOP用于用户画像
DSC0001.png

  3、HADOOP用于网站点击流日志数据挖掘
DSC0002.png

1.5 国内HADOOP的就业情况分析
  1、 HADOOP就业整体情况
  A. 大数据产业已纳入国家十三五规划
  B. 各大城市都在进行智慧城市项目建设,而智慧城市的根基就是大数据综合平台
  C. 互联网时代数据的种类,增长都呈现爆发式增长,各行业对数据的价值日益重视
  D. 相对于传统JAVAEE技术领域来说,大数据领域的人才相对稀缺
  E. 随着现代社会的发展,数据处理和数据挖掘的重要性只会增不会减,因此,大数据技术是一个尚在蓬勃发展且具有长远前景的领域
  2、 HADOOP就业职位要求
  大数据是个复合专业,包括应用开发、软件平台、算法、数据挖掘等,因此,大数据技术领域的就业选择是多样的,但就HADOOP而言,通常都需要具备以下技能或知识:
  A. HADOOP分布式集群的平台搭建
  B. HADOOP分布式文件系统HDFS的原理理解及使用
  C. HADOOP分布式运算框架MAPREDUCE的原理理解及编程
  D. Hive数据仓库工具的熟练应用
  E. Flume、sqoop、oozie等辅助工具的熟练使用
  F. Shell/python等脚本语言的开发能力
  3、 HADOOP相关职位的薪资水平
  大数据技术或具体到HADOOP的就业需求目前主要集中在北上广深一线城市,薪资待遇普遍高于传统JAVAEE开发人员,以北京为例:
DSC0003.png

1.6 HADOOP生态圈以及各组成部分的简介
DSC0004.png

  各组件简介
  重点组件:
  HDFS:分布式文件系统
  MAPREDUCE:分布式运算程序开发框架
  HIVE:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具
  HBASE:基于HADOOP的分布式海量数据库
  ZOOKEEPER:分布式协调服务基础组件
  Mahout:基于mapreduce/spark/flink等分布式运算框架的机器学习算法库
  Oozie:工作流调度框架
  Sqoop:数据导入导出工具
  Flume:日志数据采集框架

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-424943-1-1.html 上篇帖子: hadoop工作流调度系统 下篇帖子: hadoop上下文信息获取方法
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表