设为首页 收藏本站
查看: 1362|回复: 0

[经验分享] 大象跳舞系列之Spark on HDInsight (1)

[复制链接]

尚未签到

发表于 2017-7-1 09:51:23 | 显示全部楼层 |阅读模式
  HDInsight Linux在中国区正式上线,对于很多Azure上的大数据用户来说,是一件喜大普奔的事情:)除了底层虚拟机是Linux,更加符合用户的使用习惯以外,还增加了很多令人兴奋的新特性,例如R Server,Spark以及Kafka的支持,版本的更新,完整的监控等等,本文主要从以下几个方面来介绍Spark在HDInsight Linux上的创建,配置和开发:
  第一部分:

  • 为什么使用Spark
  • HDInsight Linux简介
  • 创建配置Spark on HDInsight
  第二部分:

  • HDInsight的监控和管理
  • Spark集群使用及应用开发部署
  第三部分

  • 利用Spark进行机器学习
  • Spark集群上的第三方应用
Spark简介
  一说到大数据分析,我们直接的反应就是Hadoop集群,MapReduce,HDFS等等以及相关的生态系统,然而我们现在谈大数据,并不仅仅是海量数据的处理,同时也包括机器学习,流式分析,数据挖掘,图形计算……这也正是Spark作为一个基于内存的分布式并行大数据处理框架越来越火的原因之一,相对于传统的MapReduce, Spark具有以下优点:
  高性能:相对于传统的MapReduce,基于磁盘的运算方式来讲,Spark是一个基于内存的分布式运算框架,并且由于RDD和Cache的使用,数据的交换基于内存,大幅度提升了性能,在不同的场景下,比MapReduce快10倍到100倍不等。
  易于使用: 支持Java,Python,R,  Scala开发语言,并且目前Spark提供超过80多种抽象的数据转换操作,让你可以快速构建并行处理程序。
  生态系统:Spark目前已经构建出了完善而成熟的生态系统,内建对于HDFS, RDBMS, S3, Apache Hive, Cassandra and MongoDB, Azure Storage等数据源的良好支持。
  统一引擎:从下图你可以看到,Spark SQL,Spark Streaming, Spark MLLib以及Graphx均基于Spark核心引擎,也就意味着在一个平台可以统一支持多种不同的应用,相对于Hadoop的碎片化的组建生态,对开发人员来讲简单很多也高效很多
  多调度器支持:虽然Spark底层的数据存储依然依赖于HDFS,然而对于资源调度来说,Spark可以使用YARN,也可以使用Mesos甚至是独立的调度器,部署非常灵活,尤其是在容器技术大行其道的时候,你可以在容器上跑Spark,用Mesos来统一管理
DSC0000.png

什么是HDInsight
  HDInsight是微软推出的基于云端的Hadoop大数据处理平台,支持Storm,Spark,HBase,R Server, Kafka,Interactive Hive(LLAP)等多种不同的大数据框架,HDInsight Linux顾名思义就是底层的头结点和数据节点都是基于Linux的,目前是Ubuntu 16.04 LTS。本身来讲HDInsight是基于大数据三大巨头之一的Hortonworks公司的Hortonworks Data Platform(HDP) 来构建的,并针对企业级用户在云端使用的需求,增强了管理和安全多方面的功能。
  如果你之前在自己的数据中心,在云端使用HDInsight可以为企业带来诸多好处,例如:
  易于使用,部署方便:对于HDInsight的集群部署来说,你不需要了解复杂的底层细节,头结点,数据节点的配置,不同的组件等等,在Azure的管理界面,经过几个简单的点击,几分钟的时间,一个16节点的集群就创建成功了
  按需付费:你不需要为了你的企业运行大数据,一次采购大量的硬件,并且业务闲时机器闲置,浪费资源,你只需要在需要计算的时候,创建集群,运算完毕就可以删除该集群,Azure只按照使用量来计费,由于计算和存储分离的特性,你的数据库会保存在Azure存储上,每个月只需要少量存储的钱
  弹性扩展:你可以根据你的也无需要,在界面上扩展或者伸缩节点数目,满足你的业务的弹性要求
  丰富的服务和版本选择:HDInsight提供各个不同版本的HBase,Hadoop,Spark,Storm,Hive,Pig,R, Kafka等等生态系统组件,而且自动安装配置,满足你不同的业务需求
  开源100%兼容:HDInsight基于HDP构建,与开源Hadoop完全兼容,这就意味着你已有的大数据方案,可以快速的迁移到云端而不需要或者轻微的改动(例如数据的存储位置)就可以使用
  数据持久化:从以下架构可以看出,HDInsight的HDFS基于Azure Storage实现,意味着你存储的每一分数据,都会默认存储完全相同的三份,对于企业来说,数据安全就是核心,Azure的存储高可用性,保证了在任何情况下的数据可靠性
DSC0001.png

创建HDInsight Linux for Spark
  从下图可以看到,创建HDInsight的简单步骤,你可以先创建一个存储账号,用于存储Spark要处理的数据,也可以在创建集群时一起创建,然后创建集群,完成后使用Spark SQL进行数据处理,在部署方式上,你可以使用ARM模板部署,Powershell部署或者Linux/Mac下使用Azure CLI部署,本例中使用Azure管理界面进行部署。
DSC0002.png



  • 打开Azure新portal,https://portal.azure.cn, 选择新建,Intelligence + Analytics,就可以看到HDInsight图标,单击进行创建:
    DSC0003.png


  • 给你的cluster起一个名字,在本例中叫hdispark,配置集群,在集群类型中,可以看到我们可以选择Hadoop,HBase,Storm,Spark,R server等等,我们选择Spark,操作系统目前类型只支持Linux,版本选择Spark2.0,其对应的HDP是3.5版本:
    DSC0004.png


  • 在应用程序选项部分,你可以看到HDInsight Spark自带了一些第三方的,基于Spark的工具集和库,你可以根据需要选择使用,我们暂时忽略掉该部分,在下一章中详细介绍:
    DSC0005.png


  • 在凭据部分,第一个用户名和密码是你后面需要访问Ambari仪表板需要的用户名密码,第二个用户名密码是你使用SSH进行远程登录的用户名密码,按照你的习惯进行设置,但这些用户名和密码必须记住,旺季后无法恢复,后面会使用到:
    DSC0006.png


  • 数据源的部分,需要配置你的数据存储在什么地方,目前Data Lake中国暂时不支持,所以我们只使用Azure存储,配置你的数据处理存储在哪个账号里,如果是第一次创建,可以选择创建新建存储的账号,指定名称即可,或者你也可以使用你已经创建的存储账号:
    DSC0007.png

      注:如果你想删除Spark计算集群后,依然保存Hive和Oozie的数据,你需要提前创建一个SQL数据库用来保存数据:
    DSC0008.png


  • 在Spark集群中,默认需要两个头结点,你可以指定多个工作节点,在群集大小中,需要选择合适的节点大小,和数据节点的个数,这部分的选择关系到你有多大的数据量,需要多长时间完成,并且关系到成本,需要提前做规划,选择完成后,选择确定:
    DSC0009.png


  • 在高级特性配置中,你可以选择配置vNet,即将Spark集群部署到你的虚拟网络里面,这样虚拟网络的虚拟机可以直接访问集群;也可以自定义脚本,在集群部署完  成后再额外部署新的包或者执行安装后的操作;点击确定开始创建:
DSC00010.png


  • 创建完成后,你就可以看到Spark集群的仪表板界面,就可以看到仪表板界面,包括集群仪表板,Ambari ,SSH登录信息,节点信息,在本例中一共有4个节点,2个头节点,2个工作节点:
DSC00011.png

  在下一节中介绍如何对Spark集群进行监控,管理以及Spark上的应用开发和部署。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-389935-1-1.html 上篇帖子: Web API 2 使用Entity Framework Part 1. 下篇帖子: 使用Powershell链接到Office 365
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表