Hadoop产生原因

stbyruby · 发表于 2018-10-29 10:36:46

　　对于Hadoop产生的原因，我们从以下三个方面谈起：

　　传统大规模系统的问题

　　（1）传统大规模计算
　　1.传统计算受到处理器限制：相对较小的数据量；有很多复杂的处理。
　　2.早期的方案：更大的计算机，更快的处理器，更多的内存，但即使这样也不能满足
　　（2）分布式系统
　　1.更好的方案：使用更多的机器来处理单个作业
　　2.分布式系统遇到的问题：编程的复杂性（用来管理和处理数据的程序很复杂）；有限的带宽
　　3.数据瓶颈：传统系统中，数据存储在中央存储；数据在运行时拷贝到处理器；适合限量的数据
　　然而，现代系统有很多数据，我们需要寻求新的方法来处理这些数据：Hadoop就应运而生，引入了一个彻底的新方法就是分布式计算，当数据存储时分布数据，而且在数据所在的位置运行计算。

　　Hadoop自身优势

　　（1） Hadoop的源起：
　　1.思想起源：Google
　　2.Hadoop之父：Doug Cutting
　　3.Lucene->Nutch->Hadoop
　　4.实现云计算的事实标准开源软件
　　5.包含数十个具有强大生命力的子项目
　　6.已经能在上万节点上运行，处理数据量和排序时间不断打破世界纪录
　　（2） Hadoop核心设计
　　1.当数据加载的时候分片成块
　　2.Map任务通常作用于单个块
　　3.Master程序管理任务

　　（3） Hadoop核心概念
　　1.应用通过高级语言代码来写
　　2.节点之间尽可能少的通信
　　3.数据提前分布式存储
　　4.把计算放到数据所在节点运行
　　5.数据通过多副本存储来提供可靠性和高可用性
　　6.Hadoop是可扩展并且容错的
　　三．Hadoop适用背景
　　（1）大数据的处理模式：
　　主要的处理模式可以分为流处理（stream processing）和批处理（batch processing）：批处理是先存储后处理（store-process）；流处理则是直接处理（straight-through process）
　　（2）你可以用Hadoop做什么？
　　

　　
　　（3）数据从哪里来？
　　1.科学
　　医疗影像，传感器数据，基因测序，天气数据，卫星
　　2.工业
　　金融，制药，制造业，保险，网游，能源，零售数据
　　3.资产
　　销售数据，客户行为，产品数据库，账户数据等
　　4.系统数据
　　日志文件，健康和状态，活动信息流，网络消息，web分析，***检测和垃圾邮件过滤
　　（4）常见的Hadoop分析类型
　　ETL;文本挖掘;索引构建;图创建和分析；模式识别；协同过滤；预测模型；情感分析；风险评估
　　（5）使用Hadoop分析的好处
　　实现以前不可能或不现实的分析；更低的成本；更少的时间；更多的灵活性；近线性的扩展性
　　以上就是根据自己的学习以及实际经验给大家分享的Hadoop产生的原因，对于更多想要学习和了解大数据的同学来说，这是一个很好的开端；平常大家可以多关注一些大数据的资讯，多看一些大数据相关的书籍，我平常喜欢关注如大数据cn这些微信公众号，里面对于大数据的资讯介绍还是不错的，大家也可以看看。总之，希望我们每一个人都踏踏实实从基础做起，不断巩固提高，一定会取得进步的。

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] Hadoop产生原因

扫码加入运维网微信交流群