大数据-Spark技术由浅入深

nidr · 发表于 2019-1-30 14:33:41

　　Spark生态系统，未来大数据领域的佼佼者。
　　Apache Spark是一个新兴的大数据处理的引擎，主要特点是提供了一个集群的分布式内存抽象，以支持需要工作集的应用。
　　Spark是个通用的集群计算框架，通过将大量数据集计算任务分配到多台计算机上，提供高效内存计算。如果你熟悉Hadoop，那么你知道分布式计算框架要解决两个问题：如何分发数据和如何分发计算。Hadoop使用HDFS来解决分布式数据问题，MapReduce计算范式提供有效的分布式计算。类似的，Spark拥有多种语言的函数式编程API，提供了除map和reduce之外更多的运算符，这些操作是通过一个称作弹性分布式数据集(resilient distributed datasets, RDDs)的分布式数据框架进行的。
　　本质上，RDD是种编程抽象，代表可以跨机器进行分割的只读对象集合。RDD可以从一个继承结构（lineage）重建（因此可以容错），通过并行操作访问，可以读写HDFS或S3这样的分布式存储，更重要的是，可以缓存到worker节点的内存中进行立即重用。由于RDD可以被缓存在内存中，Spark对迭代应用特别有效，因为这些应用中，数据是在整个算法运算过程中都可以被重用。大多数机器学习和最优化算法都是迭代的，使得Spark对数据科学来说是个非常有效的工具。另外，由于Spark非常快，可以通过类似Python REPL的命令行提示符交互式访问。
　　Spark库本身包含很多应用元素，这些元素可以用到大部分大数据应用中，其中包括对大数据进行类似SQL查询的支持，机器学习和图算法，甚至对实时流数据的支持。
　　王家林的第一个中国梦：免费为全社会培养100万名优秀的大数据从业人员！
　　您可以通过王家林老师的微信号18610086859发红包捐助大数据、互联网+、O2O、工业4.0、微营销、移动互联网等系列免费实战课程，目前已经发布的王家林免费视频全集如下：
　　1，《大数据不眠夜：Spark内核天机解密（共100讲）》：http://pan.baidu.com/s/1eQsHZAq
　　2，《Hadoop深入浅出实战经典》http://pan.baidu.com/s/1mgpfRPu
　　3，《Spark纯实战公益大讲坛》http://pan.baidu.com/s/1jGpNGwu
　　4，《Scala深入浅出实战经典》http://pan.baidu.com/s/1sjDWG25
　　5，《Docker公益大讲坛》http://pan.baidu.com/s/1kTpL8UF
　　6，《Spark亚太研究院Spark公益大讲堂》http://pan.baidu.com/s/1i30Ewsd
　　7，DT大数据梦工厂Spark、Scala、Hadoop的所有视频、PPT和代码在百度云网盘的链接：http://pan.baidu.com/share/home?uk=4013289088#category/type=0&qq-pf-to=pcqq.group
　　王家林免费在运维网发布的1000集合大数据spark、hadoop、scala、docker视频：
　　1，《Scala深入浅出实战初级入门经典视频课程》http://edu.运维网.com/lesson/id-66538.html
　　2，《Scala深入浅出实战中级进阶经典视频课程》http://edu.运维网.com/lesson/id-67139.html
　　3，《Akka深入浅出实战经典视频课程》http://edu.运维网.com/lesson/id-77672.html
　　4，《Spark亚太研究院决胜大数据时代公益大讲堂》http://edu.运维网.com/lesson/id-30815.html
　　5，《云计算Docker虚拟化公益大讲坛》http://edu.运维网.com/lesson/id-61776.html
　　6，《Spark 大讲堂（纯实战手动操作）》http://edu.运维网.com/lesson/id-78653.html
　　7，《Hadoop深入浅出实战经典视频课程-集群、HDFS、Yarn、MapReduce》http://edu.运维网.com/lesson/id-77141.html
　　8，《从技术角度思考Hadoop到底是什么》http://edu.运维网.com/course/course_id-1151.html

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] 大数据-Spark技术由浅入深

浏览过的版块

扫码加入运维网微信交流群