设为首页 收藏本站
查看: 1209|回复: 0

[经验分享] Hadoop on Docker

[复制链接]

尚未签到

发表于 2015-4-17 09:32:14 | 显示全部楼层 |阅读模式
  最初接触Docker是在2013年初,当时Docker才刚起步不久,知之甚少。在不到一年的时间里,Docker已经家喻户晓,成为时下最热门的云计算技术之一,出现了许多围绕docker的新兴产品(仅供参考):

  • Flynn:一个使用go语言编写的开源PaaS平台,目标是简化分布式环境中应用的部署和维护,可以通过git push命令,将应用部署到Docker,从而省去复杂的配置和操作。
  • CoreOS:一种新的架构体系重新设计的Linux发型版,可以运行在既有的硬件活着云服务器上。CoreOS不提供类似yum或apt的包管理工具,用户不需要在CoreOS中安装软件,而是让程序都在Docker容器中运行。
  • Fig:是一个基于Docker的用于快速搭建开发环境的工具,目前Fig团队已经加入Docker公司。
  • Kubernets:来自Google的容器集群管理工具,支持跨平台。目前已经得到微软,IBM,红帽,CoreOS等公司的支持。
  • Boot2Docker:专为Docker设计的轻量级Linux发型包,解决Windows或OS X用户不能安装Docker的问题。
    什么是Docker。Docker是一个开源的引擎,可以轻松的为任何应用创建一个轻量级的、可移植的、相互隔离的容器。开发者在笔记本上编译测试通过的容器可以批量地在生产环境中部署,包括VMs(虚拟机)、OpenStack 集群和其他的基础应用平台。
  Docker应用场景

  • web应用的自动化打包和发布。
  • 自动化测试和持续集成,发布。
  • 在服务型环境中部署和调整数据库或其他的后台应用。
  • 从头编译或者扩展现有的OpenShift或Cloud Foundry平台来搭建自己的PaaS环境等。
  本文主要介绍docker在大数据方面的应用,经过一段时间的研究和实际操作,提出了Hadoop on Docker架构。大概思路就是将硬件(或云服务器)通过Docker搭建成为一个“超级服务器”,这里的超级是指,拥有足够的CPU,内存,并且提供7*24小时不宕机服务(除非同一时间所有物理主机全宕机)。每个Docker容器作为超级服务器资源的一个实例,可以根据需求动态增加实例,以满足计算性能要求。下图是整个Hadoop on Docker的架构
DSC0000.png
  从上自下,依次为:

  • Zookeeper:协调集群中物理主机之间的同步,包括维护一张每个服务器上运行着的容器名单,所有服务器上Docker容器的ip域名映射表(动态更新),Docker容器配置。
  • Server:上面运行着很多docker容器,每个容器运行着特定功能的服务。把应用打包到容器中运行的好处是,应用间是相互隔离的,一个容器宕掉不会影响主机上及其他容器,并且在创建容器的时候可以定制不同的资源(CPU,内存等)。
  • FS:外部文件系统有两个作用:
  1. 将datanode容器挂载到外部文件存储系统中,可以通过增加外部文件系统的磁盘大小来提高hdfs存储能力。
  2. 将所有配置文件存放在公共文件系统中,可以方便整个系统的配置管理,减少重复操作。

  • Yarn:资源管理系统,最终的目标是可以将不同的集群容器(storm,spark等)放在同一个yarn系统中,通过yarn的调度来为不同集群分配不同资源。
  有人会有疑问:如今服务器已经很廉价,完全可以在不同服务器上运行不同服务,没必要使用docker。
  如果硬件服务器对你来说确实是廉价的,以至于搭建100个节点的hadoop集群,大多数情况下运行mapreduce job的节点书不超过10个,剩余90台服务器常年处于休息状态,对你来说也无关紧要的话,我无话可说。抛开硬件成本不说,docker容器的隔离机制也是集群部署中的一大亮点!
  本文的目的是通过docker容器,使用更少的硬件资源来运行同样的job,容器相对于服务器来说是更细粒度的资源。同时由于容器的隔离机制,一个容器发生故障并不影响到其他容器及宿主主机。此外这种架构还解决了单点故障问题,每台服务器运行着相同的docker镜像,通过定时向zookeeper发送心跳,来监控所有容器的健康状态,心跳是一份包含该服务器上所有运行着的容器的名单。那么有可能发生两种突发情况:

  • docker容器挂掉
  • 宿主主机宕机
  对于第一种情况,由于心跳包含所有运行着容器的名单,当服务器某个容器挂掉,比如mysql意外终止,zookeeper通过两次心跳对比,发现缺少mysql,于是启动应急措施,重启该服务器的mysql容器。如果宿主主机宕机,zookeeper在一段时间内未接受该服务器的心跳,发现宕机,然后在其余剩下的服务器中重启上一次心跳名单中运行着的容器,如图所示
DSC0001.png
  整个系统的实现还有一个前提,就是使不同宿主主机上的docker容器能够通信,可以参见这篇。
  最终的目的是使整个架构看起来像在一台超级服务器(cpu,内存足够大,并且永不宕机)上运行hadoop。
  本文持续更新。。。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-57996-1-1.html 上篇帖子: 用Dockerfile构建docker image 下篇帖子: Docker 的 Image 太大,怎么变小?
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表