Mac 配置Spark环境scala+python版本（Spark1.6.0）

远行的心 · 发表于 2017-7-6 14:19:15

　　1. 从官网下载Spark安装包，解压到自己的安装目录下（默认已经安装好JDK，JDK安装可自行查找）； spark官网：http://spark.apache.org/downloads.html
　　2. 进入系统命令行界面，进入安装目录下，如"／安装目录／spark-1.6.0-bin-hadoop-2.6.0 "，输入命令"./bin/pyspark"验证pyspark能否运行，再输入命令“./bin/spark-shell”,查看scala环境能否运行。成功的话会显示Spark图形，并能输入python或scala命令行。如下图（python版）：

　　3. 对于python版，先下载pycharm，点击完成安装。新建一个工程，打开Edit configuration，找到Environment variables，点击后面的编辑框，在变量栏目中依次添加PYTHONPATH,值为spark目录／python，SPARK_HOMR，值为spark安装目录，点ok退出。

　　4. 如果是用python的话还要下载py4j包，用在命令行输入“easy_install py4j”命令就行。然后进入spark安装目录中的python文件夹下，打开lib文件夹，把里面的py4j压缩包复制到上一级python文件夹下，解压。
　　5. 在pycharm中写好demo，点击运行即可。demo示例如下：

"""SimpleApp.py"""
from pyspark import SparkContext
logFile = "/Spark/spark-1.6.0-bin-hadoop2.6/README.md" # Should be some file on your system
sc = SparkContext("local", "Simple App")
logData = sc.textFile(logFile).cache()
numAs = logData.filter(lambda s: 'a' in s).count()
numBs = logData.filter(lambda s: 'b' in s).count()
print("Lines with a: %i, lines with b: %i" % (numAs, numBs))

　　6. 如果用scala环境，那么需要下载IntelliJ IDEA，和Pycharm是同一个公司出品，直接去搜名字去官网下免费版。在第一次打开时会提示安装插件，这时候选择安装scala插件，spark1.6对应scala2.10版本，大概47M。插件下载好之后就可以新建一个scala工程。
　　7. 单击Intellij IDE菜单栏上File选项，选择Project Structure，在弹出的对话框中单击左侧Libraries，之后单击中间上方绿色“＋”号，添加spark中的lib文件夹下的assembly jar包，点击应用。
　　8. 然后从Spark官网上找一个demo，把里面的spark路径换成自己的。打开Edit configuration，点击左上角加号，选择Application，进入设置运行配置的对话框，按照下图配置，其中Program arguments手动输入local，然后右键选择main 函数地址，系统会自动添加。VM options 的值是设置单机运行，不设置会报错。

　　9. 点击ok完成配置，运行程序即可。

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] Mac 配置Spark环境scala+python版本（Spark1.6.0）

浏览过的版块

扫码加入运维网微信交流群