设为首页 收藏本站
查看: 1281|回复: 0

[经验分享] Spark 概述

[复制链接]

尚未签到

发表于 2019-1-30 12:26:35 | 显示全部楼层 |阅读模式
  转至元数据结尾

  •   创建: 漫步,最新修改: ping 于 2016-12-07
  转至元数据起始

  •   下载
  •   运行示例和 Shell
  •   在集群上运行
  •   快速跳转
  原文链接 : http://spark.apache.org/docs/latest/index.html
  译文链接 : http://www.apache.wiki/pages/viewpage.action?pageId=2883720
  贡献者 : 漫步,那伊抹微笑
  Apache Spark 是一个快速的、多用途的集群计算系统。在 JavaScalaPythonR 语言以及一个支持常见的图计算的经过优化的引擎中提供了高级 API。它还支持一组丰富的高级工具,包括用于 SQL 和结构化数据处理的 Spark SQL,用于机器学习的 MLlib,用于图形处理的 GraphX、以及 Spark Streaming。
下载
  从该项目官网的 下载页面 获取 Spark,该文档用于 Spark 2.0.2 版本。Spark 使用了用于 HDFSYRANHadoop client 的库。为了适用于主流的Hadoop 版本可以下载先前的 package。用户还可以下载 “Hadoop freebinary 并且可以 通过增加 Spark 的>Hadoop 版本一起运行Spark
  如果您希望从源码中构建 Spark,请访问 构建 Spark。
  Spark 既可以在 Windows 上运行又可以在类似 UNIX 的系统(例如,LinuxMac OS)上运行。它很容易在一台机器上本地运行 - 您只需要在您的系统PATH 上安装 Java,或者将 JAVA_HOME 环境变量指向一个 Java 安装目录。
  Spark 可运行在 Java 7+Python 2.6+/3.4R 3.1+ 的环境上。 针对 Scala APISpark 2.0.1 使用了 Scala 2.11。 您将需要去使用一个可兼容的 Scala 版本(2.11.x)。
运行示例和 Shell
  Spark 自带了几个示例程序。 Scala,Java,PythonR 的示例在 examples/src/main 目录中。在最顶层的 Spark 目录中使用 bin/run-example  [params] 该命令来运行 Java 或者 Scala 中的某个示例程序。(在该例子的底层,调用了 spark-submit 脚本以启动应用程序 )。 例如,
./bin/run-example SparkPi 10  您也可以通过一个改进版的 Scala shell 来运行交互式的 Spark。这是一个来学习该框架比较好的方式。
./bin/spark-shell --master local[2]  这个 --master 选项可以指定为 分布式集群中的 master URL,或者指定为 local 以使用 1 个线程在本地运行,或者指定为 local[N] 以使用 N 个线程在本地运行 。您应该指定为 local 来启动以便测试。该选项的完整列表,请使用 --help 选项来运行 Spark shell
  Spark 同样支持 Python API。Python interpreter(解释器)中运行交互式的 Spark,请使用 bin/pyspark :
./bin/pyspark --master local[2]  Python 中也提供了应用示例。例如,
./bin/spark-submit examples/src/main/python/pi.py 10  从1.4 开始(仅包含了 DataFrames APISpark 也提供了一个用于实验性的 R API。为了在 R interpreter(解释器)中运行交互式的 Spark,请执行bin/sparkR :
./bin/sparkR --master local[2]  R 中也提供了应用示例。例如,
  ./bin/spark-submit examples/src/main/r/dataframe.R
  
在集群上运行
  Spark 集群模式概述 说明了在集群上运行的主要的概念。Spark 既可以独立运行,也可以在几个已存在的 Cluster Manager(集群管理器)上运行。它当前提供了几种用于部署的选项 :

  •   Spark Standalone 模式 : 在私有集群上部署 Spark 最简单的方式。
  •   Spark on Mesos
  •   Spark on YARN

快速跳转
  编程指南 :

  •   快速入门 : 简单的介绍 Spark API,从这里开始!~
  •   Spark 编程指南 : 在所有 Spark 支持的语言(Scala,Java,Python,R)中的详细概述。
  •   构建在 Spark 之上的模块 :

    •   Spark Streaming : 实时数据流处理。
    •   Spark SQL,Datasets,和 DataFrames : 支持结构化数据和关系查询。
    •   MLlib : 内置的机器学习库。
    •   GraphX : 新一代用于图形处理的 Spark API。

  API文档:

  •   Spark Scala API(Scaladoc)
  •   Spark Java API(Javadoc)
  •   Spark Python API(Sphinx)
  •   Spark R API(Roxygen2)
  部署指南:

  •   集群模式概述 : 在集群上运行时概念和组件的概述。
  •   提交应用程序 : 打包和部署应用。
  •   部署模式 :

    •   Amazon EC2 : 花费大约5分钟的时间让您在EC2上启动一个集群的介绍
    •   Spark Standalone 模式 : 在不依赖第三方 Cluster Manager 的情况下快速的启动一个独立的集群
    •   Spark on Mesos : 使用 Apache Mesos 来部署一个私有的集群
    •   Spark on YARN : 在 Hadoop NextGen(YARN)上部署 Spark

  其他文件:

  •   配置: 通过它的配置系统定制 Spark
  •   监控 : 监控应用程序的运行情况
  •   优化指南 : 性能优化和内存调优的最佳实践
  •   作业调度 : 资源调度和任务调度
  •   安全性 : Spark 安全性支持
  •   硬件挑选 : 集群硬件挑选的建议
  •   与其他存储系统的集成 :

    •   OpenStack Swift

  •   构建 Spark : 使用 Maven 来构建 Spark
  •   Contributing to Spark
  •   Third Party Projects : 其它第三方 Spark 项目的支持
  外部资源:

  •   Spark 主页
  •   Spark Wiki
  •   Spark 社区 资源,包括当地的聚会
  •   StackOverflow tag apache-spark
  •   邮件列表 : 在这里询问关于 Spark 的问题
  •   AMP 营地 在加州大学伯克利分校:一系列的训练营,特色和讨论 练习对 Spark,Spark Steaming,Mesos 以及更多。可以免费通过 视频 , 幻灯片 和 练习 学习。
  •   代码示例 : 更多示例可以在 Spark 的子文件夹中(Scala , Java , Python , R )获得。


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-669618-1-1.html 上篇帖子: spark程序 下篇帖子: 轻松搞定Spark安装
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表