设为首页 收藏本站
查看: 863|回复: 0

[经验分享] Python pycharm(windows版本)部署spark环境

[复制链接]

尚未签到

发表于 2017-12-8 15:33:53 | 显示全部楼层 |阅读模式
  一 部署本地spark环境




1.1  安装好JDK

下载并安装好jdk1.7,配置完环境变量。





1.2 Spark环境变量配置

      去http://spark.apache.org/downloads.html网站下载相应hadoop对应的版本,我下载的是spark-1.6.0-bin-hadoop2.6.tgz,spark版本是1.6,对应的hadoop版本是2.6  解压下载的文件,假设解压 目录为:D:\Spark-1.6.0-bin-hadoop2.6。将D:\spark-1.6.0-bin-hadoop2.6\bin添加到系统Path变量,同时新建SPARK_HOME变量,变量值为:D:\spark-1.6.0-bin-hadoop2.6
  1.3 Hadoop相关包的安装
  spark是基于hadoop之上的,运行过程中会调用相关hadoop库,如果没配置相关hadoop运行环境,会提示相关出错信息,虽然也不影响运行。
  去下载hadoop 2.6编译好的包https://www.barik.net/archive/2015/01/19/172716/,我下载的是hadoop-2.6.0.tar.gz,解压下载的文件夹,将相关库添加到系统Path变量中:D:\hadoop-2.6.0\bin;同时新建HADOOP_HOME变量,变量值为:D:\hadoop-2.6.0。同时去github上下载一个叫做 winutils  的组件,地址是 https://github.com/srccodes/hadoop-common-2.2.0-bin 如果没有hadoop对应的版本(此时版本是 2.6),则去csdn上下载 http://download.csdn.net/detail/luoyepiaoxin/8860033,
  我的做法是把CSDN这个压缩包里的所有文件都复制到 hadoop_home的bin目录下
  二  Python环境
  Spark提供了2个交互式shell, 一个是pyspark(基于python), 一个是spark_shell(基于Scala). 这两个环境其实是并列的, 并没有相互依赖关系, 所以如果仅仅是使用pyspark交互环境, 而不使用spark-shell的话, 甚至连scala都不需要安装.
  2.1 下载并安装Anaconda
  anaconda是一个集成了python解释器和大多数python库的系统,安装anaconda 后可以不用再安装python和pandas numpy等这些组件了。下载地址是 https://www.continuum.io/downloads。将python加到path环境变量中
  三  启动pyspark验证
   在windows下命令行中启动pyspark,如图:
DSC0000.jpg



  四 在pycharm中配置开发环境   

  4.1 配置Pycharm




更详细的材料 参考 https://stackoverflow.com/questions/34685905/how-to-link-pycharm-with-pyspark  打开PyCharm,创建一个Project。然后选择“Run” ->“Edit Configurations”
DSC0001.jpg


选择 “Environment variables” 增加SPARK_HOME目录与PYTHONPATH目录。

  •   SPARK_HOME:Spark安装目录

  •   PYTHONPATH:Spark安装目录下的Python目录
      
    DSC0002.jpg
  4.2 测试程序
  先测试环境是否正确,代码如下:
  



import os
import sys

# Path for spark source folder
os.environ['SPARK_HOME']="D:\javaPackages\spark-1.6.0-bin-hadoop2.6"

# Append pyspark to Python Path
sys.path.append("D:\javaPackages\spark-1.6.0-bin-hadoop2.6\python")

try:
from pyspark import SparkContext
from pyspark import SparkConf

print ("Successfully imported Spark Modules")

except ImportError as e:
print ("Can not import Spark Modules", e)
sys.exit(1)









  如果程序可以正常输出: "Successfully imported Spark Modules"就说明环境已经可以正常执行。

  如下图,黄色框内的是具体的spark环境和python环境:

DSC0003.jpg   测试程序代码来源于 github :https://gist.github.com/bigaidream/40fe0f8267a80e7c9cf8
  转原博客地址:http://blog.csdn.net/huangxia73/article/details/51372557
DSC0004.png

DSC0005.png

  注意:
  可能会报没有 py4j ( 它是python用来连接java的中间件)
  可以用命令安装:pip install py4j

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-422170-1-1.html 上篇帖子: nvm-windows的安装配置 下篇帖子: windows下多个python版本共存 及安装Django
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表