设为首页 收藏本站
查看: 1024|回复: 0

[经验分享] [翻译]Hadoop硬件推荐配置1

[复制链接]

尚未签到

发表于 2016-12-9 07:30:06 | 显示全部楼层 |阅读模式
转发:http://www.cloudera.com/blog/2010/08/hadoophbase-capacity-planning/

Hadoop和HBase的日益普及,由于其灵活性和巨大的工作已经完成,以简化其安装和使用。这个博客是你第一次在Hadoop / HBase的集群大小提供指导。首先,有显着性差异在Hadoop和HBase使用。 Hadoop的MapReduce是主要的分析工具运行在您的所有数据的分析和提取数据查询,或至少是其中的重要部分(数据是一个复数的基准)。 HBase是更好的实时读/写/修改表格数据的访问。两个应用程序是专为高并发和大数据尺寸。对于一般性的讨论在Hadoop / HBase的架构和差异,请参考Cloudera的公司[https://wiki.cloudera.com/display/DOC/Hadoop+Installation+Documentation+for+Cloudera+Enterprise,http://www .cloudera.com/blog/2010/07/whats-new-in-cdh3-b2-hbase,或拉尔斯·乔治·博客[http://www.larsgeorge.com/2009/10/hbase-architecture-101-storage 。HTML]。我们期待着新版本的汤姆·怀特的Hadoop的书http://www.hadoopbook.com],以及在不久的将来,新的HBase的书。
Hadoop的核心是名为HDFS的文件系统,HDFS的顶部,可用于计算和实际的MapReduce实现。因为我们正在谈论有关数据,第一个关键的参数是我们所有的Hadoop节点上需要多少磁盘空间来存储所有的数据和你要使用的数据存储压缩算法。 MapReduce的组件的一个重要的考虑因素是你需要多少计算能力来处理数据,你要在集群上运行的工作是否是CPU或I / O密集​​型。一个CPU密集型工作的一个例子是图像处理,而一个I / O密集​​的工作是一个简单的数据加载或聚集。最后,HBase的主要是内存驱动,我们需要考虑在您的应用程序的数据访问模式和多少内存,你需要这样,HBase的节点不交换数据过于频繁的磁盘。大多数数据写入结束前在memstores磁盘上,他们终于结束了,所以你应该写密集型的工作负载更多的内存一样抓取网络规划。 HBase的一个很好的应用是一个低延迟基于密钥的检索和像加入一个数据仓库事实表的网页抓取或三维数据,半结构化数据的存储,特别是如果数据需要更新实时跟踪,并可以很容易地组合成列的家庭。
这里给出一般Cloudera的硬件建议。本博客将重点放在更详细的容量规划问题

网络

虽然受到网络延迟,吞吐量和带宽经常被人忽略与Hadoop开始工作时,它必将成为一个限制因素群集的增长。在Hadoop集群的每个节点需要能够互相沟通与低延迟和高吞吐量至少要抓住有关数据。此外,如果节点是无法沟通的主节点,主节点会自动认为他们都死了,退市他们,这将导致其余节点上的负载增加。 Hadoop的工作,现成的TCP / IP网络。
网络负载取决于集群中的分析计算的性质。一个简单的应用程序需要大量节点之间的通信进行排序。事实上,TeraSort是一个很好的测试,以检测在集群网络的问题。
一个典型的配置是组织到机架与机架(猛龙)开关1GE热门的节点。机架通常是由一个或多个低延迟的高吞吐量的专用层2万兆核心交换机互连。许多客户都满意〜40节点群集适合一个典型的48端口交换机,可以到一个机架。即使你的所有节点可以放入一个机架,但你打算扩展到超过一个机架,Cloudera的建议,至少有两个机架从一开始去执行正确的做法和网络拓扑脚本。
网络问题可以间接地表现自己。一个良好的实际测试是运行网络密集型应用如terasort,各种10B 100字节的记录(具体参数可以调整簇的大小),您的群集。 100个节点的集群上一个四双核心CPU硬件的运行时间大约应该在10分钟内(我们的客户之一排序1TB 6分钟,76节点群集,这些数字可能与新的12核心CPU的机器)。如果你看到的“坏连接ACK与firstBadLink”,“坏连接ACK”,“主办”或“无法获得块”的IO异常,在重负载下无路线,没准这是由于一个坏的网络。即使一个节点上速度较慢的网络卡可以减缓总作业执行高达3-4倍,因为工作的完成是由最慢的任务限制。这个问题也可以表现为“间歇”重物下自己,但通常正确的网络配置和优化。
网络连接到外部系统是重要的数据加载到HDFS和互操作性。一些公司希望有一个专用的高带宽的网络加载数据(而不是只使用VLAN)。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-311579-1-1.html 上篇帖子: 【转】Hadoop 下篇帖子: 《Hadoop The Definitive Guide》ch14 Case Studies
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表