Python pycharm（windows版本）部署spark环境

qazxsw1 · 发表于 2017-12-8 15:33:53

　　一部署本地spark环境

1.1  安装好JDK

下载并安装好jdk1.7，配置完环境变量。

1.2 Spark环境变量配置

   去http://spark.apache.org/downloads.html网站下载相应hadoop对应的版本，我下载的是spark-1.6.0-bin-hadoop2.6.tgz，spark版本是1.6，对应的hadoop版本是2.6　　解压下载的文件，假设解压目录为：D:\Spark-1.6.0-bin-hadoop2.6。将D:\spark-1.6.0-bin-hadoop2.6\bin添加到系统Path变量，同时新建SPARK_HOME变量，变量值为：D:\spark-1.6.0-bin-hadoop2.6
　　1.3 Hadoop相关包的安装
　　spark是基于hadoop之上的，运行过程中会调用相关hadoop库，如果没配置相关hadoop运行环境，会提示相关出错信息，虽然也不影响运行。
　　去下载hadoop 2.6编译好的包https://www.barik.net/archive/2015/01/19/172716/，我下载的是hadoop-2.6.0.tar.gz，解压下载的文件夹，将相关库添加到系统Path变量中：D:\hadoop-2.6.0\bin；同时新建HADOOP_HOME变量，变量值为：D:\hadoop-2.6.0。同时去github上下载一个叫做 winutils  的组件，地址是 https://github.com/srccodes/hadoop-common-2.2.0-bin 如果没有hadoop对应的版本(此时版本是 2.6)，则去csdn上下载 http://download.csdn.net/detail/luoyepiaoxin/8860033，
　　我的做法是把CSDN这个压缩包里的所有文件都复制到 hadoop_home的bin目录下
　　二  Python环境
　　Spark提供了2个交互式shell, 一个是pyspark(基于python), 一个是spark_shell(基于Scala). 这两个环境其实是并列的, 并没有相互依赖关系, 所以如果仅仅是使用pyspark交互环境, 而不使用spark-shell的话, 甚至连scala都不需要安装.
　　2.1 下载并安装Anaconda
　　anaconda是一个集成了python解释器和大多数python库的系统，安装anaconda 后可以不用再安装python和pandas numpy等这些组件了。下载地址是 https://www.continuum.io/downloads。将python加到path环境变量中
　　三  启动pyspark验证
　　在windows下命令行中启动pyspark,如图:

　　四在pycharm中配置开发环境

4.1 配置Pycharm

更详细的材料参考 https://stackoverflow.com/questions/34685905/how-to-link-pycharm-with-pyspark　　打开PyCharm，创建一个Project。然后选择“Run” ->“Edit Configurations”

选择 “Environment variables” 增加SPARK_HOME目录与PYTHONPATH目录。

　　SPARK_HOME:Spark安装目录
　　PYTHONPATH:Spark安装目录下的Python目录

　　4.2 测试程序
　　先测试环境是否正确，代码如下:
　　

import os
import sys

# Path for spark source folder
os.environ['SPARK_HOME']="D:\javaPackages\spark-1.6.0-bin-hadoop2.6"

# Append pyspark to Python Path
sys.path.append("D:\javaPackages\spark-1.6.0-bin-hadoop2.6\python")

try:
from pyspark import SparkContext
from pyspark import SparkConf

print ("Successfully imported Spark Modules")

except ImportError as e:
print ("Can not import Spark Modules", e)
sys.exit(1)

如果程序可以正常输出: "Successfully imported Spark Modules"就说明环境已经可以正常执行。

如下图，黄色框内的是具体的spark环境和python环境:

　　测试程序代码来源于 github :https://gist.github.com/bigaidream/40fe0f8267a80e7c9cf8
　　转原博客地址：http://blog.csdn.net/huangxia73/article/details/51372557

　　注意：
　　可能会报没有 py4j ( 它是python用来连接java的中间件)
　　可以用命令安装：pip install py4j

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] Python pycharm（windows版本）部署spark环境

浏览过的版块

扫码加入运维网微信交流群