Apache Spark技术实战之6

janneyabc 发表于 2015-7-31 09:33:12

　　除本人同意外，严禁一切转载，徽沪一郎。

概要
　　编写了独立运行的Spark Application之后，需要将其提交到Spark Cluster中运行，一般会采用spark-submit来进行应用的提交，在使用spark-submit的过程中，有哪些事情需要注意的呢？
　　本文试就此做一个小小的总结。

spark-defaults.conf
　　Spark-defaults.conf的作用范围要搞清楚，编辑driver所在机器上的spark-defaults.conf，该文件会影响到driver所提交运行的application，及专门为该application提供计算资源的executor的启动参数
　　只需要在driver所在的机器上编辑该文件，不需要在worker或master所运行的机器上编辑该文件
　　举个实际的例子

spark.executor.extraJavaOptions -XX:MaxPermSize=896m
spark.executor.memory 5g
spark.serializer org.apache.spark.serializer.KryoSerializer
spark.cores.max32
spark.shuffle.managerSORT
spark.driver.memory2g

　　上述配置表示为该application提供计算资源的executor启动时, heap memory需要有5g。
　　这里需要引起注意的是，如果worker在加入cluster的时候，申明自己所在的机器只有4g内存，那么为上述的application分配executor是，该worker不能提供任何资源，因为4g

页: [1]

运维网's Archiver

Apache Spark技术实战之6