设为首页 收藏本站
查看: 978|回复: 0

[经验分享] Hadoop产生原因

[复制链接]

尚未签到

发表于 2018-10-29 10:36:46 | 显示全部楼层 |阅读模式
  对于Hadoop产生的原因,我们从以下三个方面谈起:

  •   传统大规模系统的问题
  (1)传统大规模计算
  1.传统计算受到处理器限制:相对较小的数据量有很多复杂的处理。
  2.早期的方案:更大的计算机,更快的处理器,更多的内存,但即使这样也不能满足
  (2)分布式系统
  1.更好的方案:使用更多的机器来处理单个作业
  2.分布式系统遇到的问题:编程的复杂性(用来管理和处理数据的程序很复杂);有限的带宽
  3.数据瓶颈:传统系统中,数据存储在中央存储;数据在运行时拷贝到处理器;适合限量的数据
  然而,现代系统有很多数据,我们需要寻求新的方法来处理这些数据:Hadoop就应运而生,引入了一个彻底的新方法就是分布式计算,当数据存储时分布数据,而且在数据所在的位置运行计算。

  •   Hadoop自身优势
  (1)  Hadoop的源起:
  1.思想起源:Google
  2.Hadoop之父:Doug Cutting
  3.Lucene->Nutch->Hadoop
  4.实现云计算的事实标准开源软件
  5.包含数十个具有强大生命力的子项目
  6.已经能在上万节点上运行,处理数据量和排序时间不断打破世界纪录
  (2)  Hadoop核心设计
  1.当数据加载的时候分片成块
  2.Map任务通常作用于单个块
  3.Master程序管理任务
DSC0000.png

  (3)  Hadoop核心概念
  1.应用通过高级语言代码来写
  2.节点之间尽可能少的通信
  3.数据提前分布式存储
  4.把计算放到数据所在节点运行
  5.数据通过多副本存储来提供可靠性和高可用性
  6.Hadoop是可扩展并且容错的
  三.Hadoop适用背景
  (1)大数据的处理模式:
  主要的处理模式可以分为流处理(stream processing)和批处理(batch processing):批处理是先存储后处理(store-process);流处理则是直接处理(straight-through process)
  (2)你可以用Hadoop做什么?
  
DSC0001.png

  
  (3)数据从哪里来?
  1.科学
  医疗影像,传感器数据,基因测序,天气数据,卫星
  2.工业
  金融,制药,制造业,保险,网游,能源,零售数据
  3.资产
  销售数据,客户行为,产品数据库,账户数据等
  4.系统数据
  日志文件,健康和状态,活动信息流,网络消息,web分析,***检测和垃圾邮件过滤
  (4)常见的Hadoop分析类型
  ETL;文本挖掘;索引构建;图创建和分析;模式识别;协同过滤;  预测模型;情感分析;风险评估
  (5)使用Hadoop分析的好处
  实现以前不可能或不现实的分析;更低的成本;更少的时间;更多的灵活性;近线性的扩展性
  以上就是根据自己的学习以及实际经验给大家分享的Hadoop产生的原因,对于更多想要学习和了解大数据的同学来说,这是一个很好的开端;平常大家可以多关注一些大数据的资讯,多看一些大数据相关的书籍,我平常喜欢关注如大数据cn这些微信公众号,里面对于大数据的资讯介绍还是不错的,大家也可以看看。总之,希望我们每一个人都踏踏实实从基础做起,不断巩固提高,一定会取得进步的。


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-627886-1-1.html 上篇帖子: 初识Apache Hadoop-11872756 下篇帖子: 《写给大忙人的hadoop2》读书笔记(一)大数据定义
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表