设为首页 收藏本站
查看: 1575|回复: 0

[经验分享] 通过一个对数据的存储和分析的简单实例初识Hadoop

[复制链接]

尚未签到

发表于 2018-11-1 10:27:24 | 显示全部楼层 |阅读模式
  对于一个刚刚接触Hadoop的菜鸟来说,Hadoop的概念还是挺抽象的,而且这个技术刚刚兴起,除了阿里巴巴,腾讯、中国移动这些技术实力非常强而且需要对数据进行海量存储的公司对Hadoop技术有一些初步应用以外,其它中小企业对它的应用和需求并不多,网络上也鲜有比较适合的解决方案以供参考。前阵,在Hadoop的官方网站看过一篇文档,通过  一个数据存储和分析的简单实例,浅显易懂的对Hadoop进行了一个简要介绍,自认为对我理解Hadoop起到了启蒙作用,下面通过这个实例和我的它的理解对Hadoop的概念做一个初步说明。
  多年来,硬盘存储容量快速增长的同时,访问速度(数据从硬盘读取的速度)却未能与时俱进。1990年,一个普通硬盘驱动器的存储容量为1370 MB,传输速度为4.4 MB/s,读完整个硬盘的数据需要5分钟的时间;20年过去了,1TB级别的磁盘驱动器是很正常的,但数据传输的速度却在100 MB/s左右,所以它需要花将近3个小时才能读完整个驱动器的数据。从一个驱动器上读取所有的数据需要很长时间,写数据甚至更慢。
  所以,如何大幅减少硬盘驱动器的数据读取时间显的至关重要。一个很简单的方法就是同时从多个磁盘读取数据。假设,我们有100个容量为1TB的磁盘,需要存储的数据为1TB,每个磁盘存储百分之一的数据(即1/100T=10485.76MB),如果这100个硬盘并行运算,那么不到两分钟我们就可以读完这1T的数据。由此可见并行运算对于减少数据读取时间是非常有效的。但多个磁盘并行运算也有一些瓶颈问题:
  1. 第一个需要解决的问题是硬件故障:一旦开始使用多个硬件设施,其中一个会出故障的概率是非常高的,避免数据丢失的常见做法就是复制;通过系统保存数据的冗余副本,在故障发生时,可以使用数据的另一份副本。这就是冗余磁盘阵列的工作方式。Hadoop的文件系统HDFS也是一个例子,它的工作原理与冗余磁盘阵列基本相似,都是通过保存数据的冗余副本来避免数据丢失,不同的是HDFS以数据块(Block)的形式,将数据块复制三份,存储在不同的数据节点上。
  2. 之前的数据是通过分布式存储做并行运算的,大部分数据分析任务需要通过某种方式把数据合并起来,即从一个磁盘读取的数据可能需要和另外99个磁盘中读取的数据合并起来才能使用。目前,各种不同的分布式系统是能够组合多个来源的数据,但是如何保证正确性是一个非常难的挑战,而Hadoop中的核心组件MapReduce提供了一个编程模型,其抽象出上述磁盘读写的问题,将其转换为计算一个由成对键/值组成的数据集,通过Map和Reduce的接口将分布式存储的数据整合在一起。
  综上,Hadoop提供了一个稳定的共享存储和分析系统。存储由HDFS实现,分析由MapReduce实现,Hadoop很好的解决了上述关于分布式存储和并行运算所遇到的瓶颈问题,纵然Hadoop还有其他功能,但这些功能是它的核心所在。


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-629268-1-1.html 上篇帖子: ubuntu10.04下Hadoop的部署 下篇帖子: HDFS--Hadoop分布式文件系统专项基础概述
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表