大数据虚拟化实例：Tarball方式部署Hadoop发行版

缘来路过 · 发表于 2018-10-31 12:03:12

　　在博文《灵活管理Hadoop各发行版的运维利器》中，我们介绍了vSphere Big Data Extensions（BDE）是解决企业部署和管理Hadoop发行版的利器，通过它可以很方便可靠地运维Hadoop多个主流的商业发行版（包括社区的Apache Hadoop）。本文的内容围绕上述主题，以具体实例深入讲解如何做到灵活部署和管理Hadoop发行版的。

实例：Tarball方式部署GPHD1.2发行版
　　首先，需要下载GPHD 1.2发行版到本地。这里是Tarball的下载地址，完成后解压缩文件。可以看到一组目录：

　　这个实例，我们要部署的是黄色高亮的组件。

　　以serengeti账号SSH 到BDE服务器，Windows上推荐使用WinSCP 工具进行
　　在文件系统中，定位到/opt/serengeti/www/distros/，创建新的目录，命名为gphd/1.2.0.0/
　　将本地的GPHD 1.2发行版中的hadoop、pig、hive这三个文件夹中的tar文件上传到gphd/1.2.0.0/目录下，如图所示：
　　打开/opt/seregneti/www/distros/manifest文件，更新gphd相关tarball的注册清单。这个文件非常重要，记录了BDE支持的所有Hadoop发行版的信息
　　需要更新的清单信息如下：
　　1
　　{
　　2
　　"name" : "gphd",
　　"vendor" : "GPHD",
　　3
　　"version" :  "1.2.0.0",
　　4
　　"hveSupported" : true,
　　5
　　"packages" : [
　　6
　　{
　　7
　　"roles" :  ["hadoop_namenode", "hadoop_jobtracker",  "hadoop_tasktracker", "hadoop_datanode",  "hadoop_client"],
　　8
　　"tarball" :  "gphd/1.2.0.0/hadoop-1.0.3-gphd-1.2.0.0-GA.tar.gz"
　　9
　　},
　　10
　　{
　　11
　　"roles" : ["pig"],
　　12
　　"tarball" :  "gphd/1.2.0.0/pig-0.9.2-gphd-1.2.0.0-GA.tar.gz"
　　13
　　},
　　14
　　{
　　15
　　"roles" : ["hive",  "hive_server"],
　　16
　　"tarball" :  "gphd/1.2.0.0/hive-0.8.1-gphd-1.2.0.0-GA.tar.gz"
　　17
　　}
　　18
　　]
　　19
　　}
　　说明：
　　行1：将这段信息加在Apache Hadoop清单信息之后，用逗号分隔。
　　行2：name字段可以是任意名称，vendor字段必须是GPHD(不区分大小写)，BDE以此识别为GPHD发行版。
　　行3：版本号和目录1.2.0.0保持一致
　　行4：hveSupported表示这个Hadoop发行版是否已支持HVE，GPHD1.2已经支持，所以填写true。（关于HVE，后续有文章介绍）
　　行5– 18：是描述GPHD当前包含的Hadoop组件，这个例子使用了Hadoop，Pig和Hive，所以在Packages里，按照三个不同的tarball，分别描述tarball支持的角色。
　　行6– 9：描述gphd中hadoop的tarball位置以及它支持的角色名称。其中，tarball的路径和实际路径应该保持一样，并且大小写一致。Pig和Hive tarball的描述按照同样要求遵循。每个tarball的描述用{}包含，逗号分隔开。
　　用serengeti账号SSH登录BDE服务器，重启Tomcat服务。
　　sudo service tomcat restart
　　这个重启过程中，BDE服务器会执行一些后台脚本，并重新加载更新后的manifest文件以识别新添加的GPHD发行版，
　　重启完成后，打开Serengeti CLI，输入distro list，gphd已经列在其中了。
　　注意：如果distrolist给出一些错误提示，表明用户在完成前5步中有一些问题，可以简单自查，如果问题依旧不明确，可以定位到/opt/serengeti/logs目录中的日志文件查看详细错误信息。

　　验证GPHD 1.2发行版
　　7. 验证发行版部署成功的有效办法，就是创建一个GPHD的新集群，这在BDE中非常方便，10分钟搞定。
　　CLI命令行如下：
　　cluster create --name gpcluster --distro gphd
　　--distro是cluster create的一个参数，表示用户希望用哪个发行版创建集群，这里指定“GPHD”为发行版名称，必须大写。如果不提供distro参数，cluster create默认创建的是Apache Hadoop 1.2集群。
　　创建成功后可以运行cluster list查看该集群运行参数和状态，如下图所示

　　另外，也可以使用BDE的WEB UI创建一个GPHD的集群，步骤如下：

　　打开vSphere Web Client，点击Big Data Extensions，进入BDE管理界面。
　　点击Big Data Clusters，进入集群管理界面
　　在中央的集群列表上方，点击【+】图标
　　填写创建集群的表单，在Hadoop Distribution选项里，选择GPHD。其余默认即可。
　　提交表单。

　　创建成功后如图所示：

　　了解更多大数据虚拟化精彩内容，欢迎报名参加VMware大数据沙龙。VMware中国研发团队邀请了直接参与vSphere Big Data Extension产品设计和开发的资深专家和工程师、具有丰富经验的美国解决方案架构师，通过精彩演讲和演示，探讨VMware大数据战略，讲解大数据最新技术和核心价值，深度介绍BDE产品的特性和应用场景。VMware大数据沙龙上海站报名：http://event.weibo.com/1526900，北京站报名：http://event.weibo.com/1544712。
　　如有任何问题，您可以发邮件至bigdata_apac@vmware.com。
　　关于vSphere Big Data Extensions:
　　VMware vSphere Big Data Extensions（简称BDE）基于vSphere平台支持大数据和Hadoop作业。BDE以开源Serengeti项目为基础，为企业级用户提供一系列整合的管理工具，通过在vSphere上虚拟化Hadoop，帮助用户在基础设施上实现灵活、弹性、安全和快捷的大数据部署、运行和管理工作。了解更多关于VMware vSphere Big Data Extensions的信息，请参见http://www.vmware.com/hadoop。
　　作者简介：

　　张君迟
　　VMware大数据解决方案项目经理
　　目前负责VMware大数据解决方案的管理和市场工作。曾担任VMware数据库管理产品vFabric Data Director产品经理，对虚拟化、云计算、关系型数据库和大数据等企业产品、技术方案和市场有深入的理解和实战经验。在此之前，就职于Microsoft从事分布式系统的产品管理和研发工作。

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] 大数据虚拟化实例：Tarball方式部署Hadoop发行版

扫码加入运维网微信交流群