设为首页 收藏本站
查看: 1605|回复: 0

[经验分享] 【Hadoop】大数据时代,我们为什么使用hadoop

[复制链接]

尚未签到

发表于 2015-7-11 08:40:15 | 显示全部楼层 |阅读模式
  博客已转移,请借一步说话。http://www.weixuehao.com/archives/538
  
  我们先来看看大数据时代,
  什么叫大数据,“大”,说的并不仅是数据的“多”!不能用数据到了多少TB ,多少PB 来说。
  对于大数据,可以用四个词来表示:大量,多样,实时,不确定。
  也就是数据的量庞大,数据的种类繁杂多样话,数据的变化飞快,数据的真假存疑。
DSC0000.jpg
  大量:这个大家都知道,想百度,淘宝,腾讯,Facebook,Twitter等网站上的一些信息,这肯定算是大数据了,都要存储下来。
  多样:数据的多样性,是说数据可能是结构型的数据,也可能是非结构行的文本,图片,视频,语音,日志,邮件等。
  实时:大数据需要快速的,实时的进行处理。如果说对时间要求低,那弄几个机器,对小数据进行处理,等个十天半月的出来结果,这样也没有什么意义了。
  不确定: 数据是存在真伪的,各种各样的数据,有的有用,有的没用。很难辨析。
  
  根据以上的特点,我们需要一个东西,来:
  1存储大量数据
  2快速的处理大量数据
  3从大量数据中进行分析
  
  于是就有了这样一个模型hadoop。
  hadoop的历史就不说了。先来看看模型。
DSC0001.jpg
  这就相当于一个生态系统,或者可以看成一个操作系统XP,win7.
  HDFS和MapReduce为操作系统的核心,Hive,Pig,Mathout,Zookeeper,Flume,Sqoop,HBase等,都是操作系统上的一些软件,或应用。
  
  HDFS:(Hadoop Distributed File System),Hadoop分布式文件系统。从名字上就看出了它的两点功能。
  基本功能,存文件,是一个文件系统;另外这个文件系统是分布式的;
DSC0002.jpg
  从图上来看,HDFS的简单原理。
  Rack1,Rack2,Rack3是三个机架;
  1,2,3,4,5,6,7,8,9,10,11,12 是机架上的十二台服务器。
  Block A, Block B, Block C为三个信息块,也就是要存的数据。
  
  从整体布局上来看,信息块被分配到机架上。看似很均匀。这样分配的目的,就是备份,防止某一个机器宕机后,单点故障的发生。
  
  MapReduce,(Map + Reduce),就看成是计算的功能。可以对数据进行处理。
  它加快了计算。主要也是通过上图的布局。将数据分布到多个服务器上。当有任务了,比如查询,或者比较大小,先让每台服务器,都处理自己的存储中文件。然后再将所有服务器的处理结果进行第二次处理。最后将结果返回。
  
  其实,hadoop还有一点好处,就是省钱。
  框架开源的,免费的,服务器也不用特别牛X的。
  省钱才是硬道理。
  
  
  另外,从别的资料看到一种解释mapreduce的方式,很简单
  
  Goal: count the number of books in the library.
  Map: You count up shelf #1, I count up shelf #2.
  (The more people we get, the faster this part goes. )
  Reduce: We all get together and add up our individual counts.
  
  CSDN地址: http://blog.iyunv.com/weixuehao/article/details/14126199

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-85356-1-1.html 上篇帖子: hadoop示例程序wordcount分析 下篇帖子: Hadoop学习系列之PageRank
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表