设为首页 收藏本站
查看: 636|回复: 0

[经验分享] Hadoop的几个缺陷

[复制链接]

尚未签到

发表于 2015-7-14 09:18:16 | 显示全部楼层 |阅读模式
  最近几个项目都在分布式存储上有些需求,集万千宠爱于一身的Hadoop自然是热门候选,不过对于其自身的缺陷也一直在纠结。因为Hadoop被过于赞美了,就在网上找了介绍Hadoop短处的文章,MapR先做了一番批判:
  /*******以下来自http://qing.weibo.com/tag/hadoop*******/
  1)    性能。 一系列测试(比如论文 《A Comparison of Approaches to Large-Scale Data Analysis》 ,http://database.cs.brown.edu/projects/mapreduce-vs-dbms/  )发现,Hadoop在性能上可以提高的空间,尤其是和硬件的理论性能比较,还很多。造成这个的原因主要有: 在当前Hadoop的设计中,所有的meta data操作都要通过集中式的Namenode来进行,Namenode有可能是性能的瓶颈;M/R 应用程序需要通过DataNode来访问HDFS, 这就涉及到格外的进程切换和网络传输开销(请参阅着名的HDFS-347,https://issues.apache.org/jira/browse/HDFS-347,题外话,通读关于这个issue的讨论绝对会让你受益匪浅);还有在M/R 应用程序端的开销也有值得改进的地方(http://developer.yahoo.com/blogs/hadoop/posts/2009/08/the_anatomy_of_hadoop_io_pipel/ )。
2)    可扩展性和可靠性。当前Hadoop单一Namenode,单一Jobtracker的设计严重制约了整个Hadoop 可扩展性和可靠性。首先,Namenode和Jobtracker是整个系统中明显的单点故障源(SPOF)。再次单一Namenode的内存容量有限,使得Hadoop集群的节点数量被限制到2000个左右,能支持的文件系统大小被限制在10-50PB, 最多能支持的文件数量大约为1.5亿 左右(注,实际数量取决于Namenode的内存大小)。 又,在集中式的Namenode造成DataNode的blocks report也会对Namenode的性能造成严重的影响。例如系统有1800个Datanode, 每个Datanode有3T存储,整个集群大约有1.8P有效存储(1800*3T/3,假设每个数据块有3份replica)。那么每个Datanode上有大约50000个左右的block (假设block 大小是64M,然后有的block并没有达到64M大小),假设Datanode每小时会发送一次block report, 那么Namenode每两秒会收到一次block report,每个block report包含50000条数据,处理这些数据无疑会占用相当资源。 实际上,有用户抱怨其集群的Namenode重启需要数小时,这大大降低了系统的可用性 (HDFS-273, https://issues.apache.org/jira/browse/HDFS-273 )
3)    各种企业特性。随着Hadoop被广泛使用,面对各式各样的需求,人们期望Hadoop能提供更多特性,比如完全可读写的文件系统,snapshot,mirror等等。这些都是当前版本的Hadoop不支持,但是用户又有强烈需求的。
Hadoop的这些缺点也带来了巨大的机会,Cloudera的目光最为敏锐,最早看到这一点。Cloudera的商业模式和一般Open Source创业公司无异:网罗Hadoop的contributor,积极的回馈Hadoop社区,在此基础上发布自己的Hadoop发行版CDH(Cloudera's Distribution including Apache Hadoop),提供各种增值服务。实际上,CDH版Hadoop具有相当高的知名度。
  /*******截止*******/
  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-86480-1-1.html 上篇帖子: 在Hadoop分布式文件系统的索引和搜索 下篇帖子: hadoop 用户
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表