设为首页 收藏本站
查看: 687|回复: 0

[经验分享] Spark和Hadoop大决战

[复制链接]

尚未签到

发表于 2018-10-29 09:46:10 | 显示全部楼层 |阅读模式
  Spark作为数据处理的核心应用,有着重要的作用和地位,那么spark能不能取代Hadoop而存在呢?
  Spark只是分布式计算平台,而hadoop已经是分布式计算、存储、管理的生态系统。
  与Spark相对应的是Hadoop MapReduce。Spark是可以取代MapReduce的,从而成为Hadoop系统中不可或缺的一部分。但是为什么MapReduce还在被使用呢?因为有很多现有的应用还依赖于它,它不是一个独立的存在,已经成为其他生态不可替代的部分,比如pig,hive等。
  至于Spark相对于Hadoop的优势,有以下几点:
  1)任务调度的开销
  传统的MR系统,如Hadoop 是为了运行长达数小时的批量作业而设计的,在某些极端情况下,提交一个任务的延迟非常高。
  spark采用了事件驱动的类库 akka来启动任务,可以避免进程或线程启动,以及切换开销。
  2)数据格式和内存布局
  由于MR Schema On Read处理方式会引起较大的处理开销。Spark抽象出分布式内存存储结构弹性分布式数据集RDD,进行数据的存储。RDD能支持粗粒度写操作。但对于读取操作,RDD可以精确到每条几率,这使得RDD可以用来作为分布式索引,Spark的特性是能够控制数据在不同节点上的分区,用户可以自定义分区策略,如Hash分区。Spark 和SparkSQL在Spark的基础上实现了列存储和列存储压缩
  但是分布式计算仅仅是Hadoop的一部分,所以比较Hadoop和Spark实际上是Spark和MapReduce的对比:
  1、             更快
DSC0000.png

  2、             更加容易使用
DSC0001.png

  编程的时候没有Map+Reduce函数,而且配置起来超级方便。除支持JAVA外,还支持Scala、Python、R。特别是Scala,很适合写数据分析的程序,而Mapreduce用JAVA很繁琐。
  3、             巨好用的库
DSC0002.png

  4、             运行方便
DSC0003.png

  Spark是可以脱离hadoop运行的,比如数据可以从数据库或者本地文件里面抽取。不过毕竟大数据时代,大家都习惯于将Spark和hadoop通过Mesos或者YARN结合起来用;主要用Hadoop的HDFS,当然Hbase或者Hive这种HDFS之上的组件,Spark也支持。
  因此Spark是不可以取代Hadoop的,我们要区分两者的作用和地位,才可以更好的把握应用。我平常的时候喜欢看“大数据cn”这些微信公众号,里面的一些介绍也挺不错的,大家平时可以去看看,对于改善自己的知识架构有着重要的作用。


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-627825-1-1.html 上篇帖子: Hadoop日志小结 下篇帖子: Hadoop中最不容错过的压缩知识
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表