设为首页 收藏本站
查看: 1408|回复: 0

[经验分享] spark-7326056

[复制链接]

尚未签到

发表于 2019-1-30 10:31:54 | 显示全部楼层 |阅读模式
  转载自:http://lxw1234.com/archives/2015/07/416.htm
  关键字:Spark On Yarn、Spark Yarn Cluster、Spark Yarn Client
  Spark On Yarn模式配置非常简单,只需要下载编译好的Spark安装包,在一台带有Hadoop Yarn客户端的机器上解压,简单配置之后即可使用。
  要把Spark应用程序提交到Yarn运行,首先需要配置HADOOP_CONF_DIR或者YARN_CONF_DIR,让Spark知道Yarn的配置信息,比如:ResourceManager的地址。可以配置在spark-env.sh中,也可以在提交Spark应用之前export:
  export HADOOP_CONF_DIR=/etc/hadoop/conf
  yarn-cluster模式提交Spark应用程序
./spark-submit \  
--class com.lxw1234.test.WordCount \--master yarn-cluster \--executor-memory 4G \--num-executors 10 \/home/lxw1234/spark-wordcount.jar \/logs/2015-07-14/ /tmp/lxw1234/output/1234567812345678
  yarn-client模式提交Spark应用程序
./spark-submit \  
--class com.lxw1234.test.WordCount \--master yarn-client \--executor-memory 4G \--num-executors 10 \/home/lxw1234/spark-wordcount.jar \/logs/2015-07-14/ /tmp/lxw1234/output/1234567812345678
  Yarn Cluster模式和Yarn Client模式的主要区别
  yarn-cluster模式中,应用程序(包括SparkContext)都是作为Yarn框架所需要的
  ApplicationMaster,在Yarn ResourceManager为其分配的一个随机节点上运行;
  而在yarn-client模式中,SparkContext运行在本地,该模式适用于应用程序本身需要在本地进行交互的场合。
  Spark Standalone模式下提交Spark应用程序,可参考:
  http://lxw1234.com/archives/2015/05/215.htm
  以下是一些Spark On Yarn相关的配置参数:
  spark.yarn.am.memory
  默认值:512M
  在yarn-client模式下,申请Yarn App Master所用的内存。
  spark.driver.memory
  默认值:512M
  在yarn-cluster模式下,申请Yarn App Master(包括Driver)所用的内存。
  spark.yarn.am.cores
  默认值:1
  在yarn-client模式下,申请Yarn App Master所用的CPU核数
  spark.driver.cores
  默认值:1
  在yarn-cluster模式下,申请Yarn App Master(包括Driver)所用的CPU核数。
  spark.yarn.am.waitTime
  默认值:100s
  在yarn-cluster模式下,Yarn App Master等待SparkContext初始化完成的时间;
  在yarn-client模式下,Yarn App Master等待SparkContext链接它的时间;
  spark.yarn.submit.file.replication
  默认值:HDFS副本数
  Spark应用程序的依赖文件上传到HDFS时,在HDFS中的副本数,这些文件包括Spark的Jar包、应用程序的Jar包、其他作为DistributeCache使用的文件等。通常,如果你的集群节点数越多,相应地就需要设置越多的拷贝数以加快这些文件的分发。
  spark.yarn.preserve.staging.files
  默认值:false
  在应用程序结束后是否保留上述上传的文件。
  spark.yarn.scheduler.heartbeat.interval-ms
  默认值:5000
  Spark Application Master向Yarn ResourceManager发送心跳的时间间隔,单位毫秒。
  spark.yarn.max.executor.failures
  默认值:numExecutors * 2 (最小为3)
  最多允许失败的Executor数量。
  spark.yarn.historyServer.address
  默认值:none
  Spark运行历史Server的地址,主机:host,如:lxw1234.com:18080,注意不能包含http://
  默认不配置,必须开启Spark的historyServer之后才能配置。该地址用于Yarn
ResourceManager在Spark应用程序结束时候,将该application的运行URL从ResourceManager的UI指向SparkhistoryServer UI。
  spark.executor.instances
  默认值:2
  Executor实例的数量,不能与spark.dynamicAllocation.enabled同时使用。
  spark.yarn.queue
  默认值:default
  指定提交到Yarn的资源池
  spark.yarn.jar
  Spark应用程序使用的Jar包位置,比如:hdfs://cdh5/lxw1234.com/
  参考更多大数据Hadoop、Spark、Hive相关:lxw的大数据田地
  另外,在提交Spark应用程序到Yarn时候,可以使用—files指定应用程序所需要的文件;
  使用—jars 和 –archives添加应用程序所依赖的第三方jar包等。



运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-669504-1-1.html 上篇帖子: Spark源码研读 下篇帖子: python spark windows pycharm pyspark环境配置
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表