IT十八掌课程体系SPARK知识点总结

新风花雪月 · 发表于 2019-1-31 06:00:01

Spark知识点

　　IT十八掌课程体系SPARK知识点如下：
　　有需要IT十八掌体系课程的可以加微信：15210639973
　　1.定义
MapReduce-like集群计算框架设计的低延迟迭代和交互使用的工作。
　　2.体系结构

　　3.一些重要概念的解析
　　(1) RDD(resilient distributed dataset)
　　弹性分布式数据集一个只读的，可分区的分布式数据集，能够部分或全部的缓存在内存中(数据溢出时会根据LRU策略来决定哪些数据可以放在内存里，哪些存到磁盘上)，用来减少Disk-io,Network-io的读写开销，从而降低整个计算框架的开销。RDD支持两种操作，分别是transformation，如filter、map、join、union，和Action，如reduce，count，save，collect等。transformation是从一个已有的数据集创建一个新的数据集，而action是将transformation的数据集进行迭代计算，并将计算结果传递给Driver。为了提高运行效率，Spark中所有的Action都是延迟生成的，就是说它只是暂时的记住之前的转换动作，只有当真正需要将数据集返回给Driver时才会执行这些动作。
　　(2)Lineage
　　称为血统，是用来记录RDD数据集是如何从其他RDD数据集演变过来的，当某个RDD数据集部分分区数据丢失时，系统可以通过Lineage获得足够的信息来重新运算和恢复丢失的数据分区。这是Spark为了提高系统性能所设计的粗粒度的容错机制。相比于其它的备份机制或Log机制的细粒度的容错处理机制，这种粗粒度的容错机制减少了数据的冗余和读写磁盘的开销。
　　RDD的血统依赖分为两种，即宽依赖和窄依赖。如图所示

　　窄依赖是指父RDD的每个分区仅对应一个子RDD分区，而一个子RDD分区可以使用一个或多个父RDD分区。宽依赖是指父RDD的每个分区可以对应多个子RDD分区，而每一个子RDD分区也可以使用父RDD的多个分区。当一个节点宕机时，明显数据重算的开销宽依赖比窄依赖要大。
　　(3) DAG(Directed Acycle graph) 有向无环图反映了RDD之间的依赖关系
　　4.生态系统

　　spark主要支持的组件有：
　　(1)用于大数据查询分析计算的组件Shark。对于Spark来说，Shark的作用就类似于Hive在Hadoop系统中的作用，Shark提供了一系列的命令接口，通过配置参数可以缓存Spark中特定的RDD，并对数据进行检索。此外，Shark可以调用用户自定义函数，将数据分析与SQL查询结合并实现数据重用，从而提高计算速度。
　　(2)用于流式计算组件SparkStreaming。它的基本原理是，将数据分割成非常小的数据片段，封装到RDD分区中，然后以类似批处理的方式来处理这些小数据，利用Spark基于内存的特点，可以保证计算的低延迟性，以及兼容批处理和实时数据处理的算法，另外通过Lineage来进行容错。
　　(3)对于图计算的GraphX：spark的GraphX提供了对图操作的API，在图加载，边反转和邻接计算方面对通信的要求更低，产生的RDD图更加简单，。利用GraphX框架可以很方便的实现多种图算法。
　　(4)用于机器学习的MLib组件，提供了机器学习算法的实现库，目前支持聚类、二元分类，回归以及协同过滤算法。同时也提供了相关测试和数据生成器。
　　spark既可以在本地单节点上运行(开发调试用)也可以集群运行，集群运行需要集群管理器Mesos,Yarn等将计算任务分布到分布式系统的各个工作节点上。spark的数据源可以由HDFS(或者其他类似文件系统)生成。
　　五、编程模型
　　spark的所有操作时基于RDD的，RDD算子相比于Hadoop丰富了不少。一部分变换算子视RDD的元素为简单元素，分为如下几类：
　　输入输出一对一（element-wise）的算子，且结果RDD的分区结构不变，主要是map、flatMap（map后展平为一维RDD）；
　　输入输出一对一，但结果RDD的分区结构发生了变化，如union（两个RDD合为一个）、coalesce（分区减少）；
　　从输入中选择部分元素的算子，如filter、distinct（去除冗余元素）、subtract（本RDD有、它RDD无的元素留下来）和sample（采样）。
　　另一部分变换算子针对Key-Value集合，又分为：
　　对单个RDD做element-wise运算，如mapValues（保持源RDD的分区方式，这与map不同）；
　　对单个RDD重排，如sort、partitionBy（实现一致性的分区划分，这个对数据本地性优化很重要，后面会讲）；
　　对单个RDD基于key进行重组和reduce，如groupByKey、reduceByKey；
　　对两个RDD基于key进行join和重组，如join、cogroup。
　　后三类操作都涉及重排，称为shuffle类操作。
　　从RDD到RDD的变换算子序列，一直在RDD空间发生。这里很重要的设计是lazy evaluation：计算并不实际发生，只是不断地记录到元数据。元数据的结构是DAG（有向无环图），其中每一个“顶点”是RDD（包括生产该RDD 的算子），从父RDD到子RDD有“边”，表示RDD间的依赖性。
Spark给元数据DAG取了个很酷的名字，Lineage（世系）。这个Lineage也是前面容错设计中所说的日志更新。
　　Lineage一直增长，直到遇上行动（action）算子（图1中的绿色箭头），这时就要evaluate了，把刚才累积的所有算子一次性执行。行动算子的输入是RDD（以及该RDD在Lineage上依赖的所有RDD），输出是执行后生成的原生数据，可能是Scala标量、集合类型的数据或存储。当一个算子的输出是上述类型时，该算子必然是行动算子，其效果则是从RDD空间返回原生数据空间。
　　Action算子有如下几类：生成标量，如count（返回RDD中元素的个数）、reduce、fold/aggregate（见 Scala同名算子文档）；返回几个标量，如take（返回前几个元素）；生成Scala集合类型，如collect（把RDD中的所有元素倒入 Scala集合类型）、lookup（查找对应key的所有值）；写入存储，如与前文textFile对应的saveAsText-File。还有一个检查点算子checkpoint。当Lineage特别长时（这在图计算中时常发生），出错时重新执行整个序列要很长时间，可以主动调用 checkpoint把当前数据写入稳定存储，作为检查点。
　　这里有两个设计要点。首先是lazyevaluation。熟悉编译的都知道，编译器能看到的scope越大，优化的机会就越多。Spark虽然没有编译，但调度器实际上对DAG做了线性复杂度的优化。尤其是当Spark上面有多种计算范式混合时，调度器可以打破不同范式代码的边界进行全局调度和优化。下面的例子中把Shark的SQL代码和Spark的机器学习代码混在了一起。各部分代码翻译到底层RDD后，融合成一个大的DAG，这样可以获得更多的全局优化机会。
　　

账号		自动登录	找回密码
密码			立即注册

wirelessnetview好用的无线分析工具

亿图图示专家(EDraw Max) V7.9 中文破解版

zabbix3.4.1安装部署+微信推送信息+大屏显

Red Hat OpenShift I: Containers & Kubern

2025 年，C++ 还能“硬核”多久？

RH199 RHCSA Rapid Track

Red Hat RHCE 8 (EX294) Cert Guide

[经验分享] IT十八掌课程体系SPARK知识点总结

浏览过的版块

扫码加入运维网微信交流群