设为首页 收藏本站
查看: 1008|回复: 0

[经验分享] 3分钟让你读懂Hadoop都做了什么

[复制链接]
发表于 2018-10-28 11:51:30 | 显示全部楼层 |阅读模式
  写这篇文章的原因是给那些看了很多干货,但是觉得说的太多,对于刚入门的同学看起来是比较枯燥的事情,那么笔者就对此总结了hadoop简洁版。希望能够帮助初学的小伙伴。分享之前我还是要推荐下我自己创建的大数据学习交流Qun: 710219868  进Qun聊邀请码填写 南风(必填)我就知道是你了
  Hadoop可以说是大数据储存和计算的开山鼻祖了,现在大多数的开源框架都依赖于Hadoop,或者能与它更好的兼容。
  Hadoop的由来:
  

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。  

  
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
  

  hadoop的核心总共有两个:HDFS(为海量数据提供储存)、MapReduce(为海量数据提供了计算)
  hadoop的优点: 是一个能对大数据进行分布式处理的软件框架、是一种可靠、高效、高伸缩的方式进行处理数据.
  哪里可靠:因为它假设了计算元素或储存失败,因此它维护了多个工作数据和副本,确保能够针对失败的节点进行重新分布处理
  哪里高效:因为它是以并行的方式进行工作,通过并行处理加快处理速度
  还是可伸缩的,因为可以处理PB级数据
  那么说了这么多干货,究竟hadoop是干嘛的。具体能做什么呢
  

hadoop就是适用于大数据存储和大数据分析的应用,适用于几千台或者几万台服务器的集群运行,支持PB级的存储容量。  

  
hadoop提供了什么功能呢?
  

  利用服务器集群,根据用户自定义的业务逻辑对海量数据进行分布式处理!
  

  
hadoop运用于什么场景呢?
  

  目前最典型是运用于对 数据量特别大、数据类型复杂,无法用传统数据库进行储存和处理的的文本、日志、视频、图片、地理位置等.
  

  技术介绍:
  HDFS:
  那么顾名思义大数据首先是要把数据储存下来。而HDFS的设计本质就是为了大量数据能够横跨成千上万个服务器存储。
  

    比如说你获取了/hdfs/tmp/a1的数据,虽然你看到的只是一个路径的数据,但是很可能这个数据存储在很多不同的机器上。  

  作为用户根本不关注你这些数据储存在了哪里和储存在多少个地方,更多关注数据的使用和处理,这些就要交给HDFS管理。
  MapReduce:
  那么我们能够存储数据了,就要考虑如何处理数据了,一台计算机处理T或者P以上的数据可能需要好几天,这种效率明显公司是不能接受的,但是我们如果使用很多台计算机处理的话就面临了计算机之间如何分配的任务,如何通信、数据交换。这就是MapReduce/Spack要处理的问题了。提供了可靠的能在集群上运行的计算模型。
  Hive:
  简单来说就是程序员在写MapReduce程序的时候发现很麻烦,但是可以通过Hive解决这个事情。
  

hive是通过SQL的方式自动把脚本或者SQL翻译成MapReduce程序,然后丢给计算引擎去处理  

  
因为SQL比较容易上手,容易修改,可能一两行的SQL语句换成MapReduce可能几十行,几百行
  

  
上面介绍的就是数据仓库的基本架构了,底层是 HDFS,上面运行的是 MapReduce/Spark,在往上封装的是Hive。
  

  Storm:
  想要更快的计算处理速度!Storm 是最流行的流计算平台。流处理的思路就是在数据进入系统的时候就进行处理,基本无延迟。缺点是不灵活,必须事先直到需要统计的数据,数据流过就没有了,没法进行补算。因此它是个好东西,但还是无法代替上述体系的。
  HBase:
  HBase 是一个构建与 HDFS 的分布式,面向列的存储系统。以 key value 对的方式存储数据并对存取操作做了优化,能够飞快的根据 key 获取绑定的数据。例如从几个 P 的数据中找×××号只需要零点几秒。



运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-627469-1-1.html 上篇帖子: CentOS7-Hadoop安装 下篇帖子: Hadoop运维记录系列(二十三)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表