janneyabc 发表于 2015-7-31 09:33:12

Apache Spark技术实战之6

  除本人同意外,严禁一切转载,徽沪一郎。

概要
  编写了独立运行的Spark Application之后,需要将其提交到Spark Cluster中运行,一般会采用spark-submit来进行应用的提交,在使用spark-submit的过程中,有哪些事情需要注意的呢?
  本文试就此做一个小小的总结。

spark-defaults.conf
  Spark-defaults.conf的作用范围要搞清楚,编辑driver所在机器上的spark-defaults.conf,该文件会影响 到driver所提交运行的application,及专门为该application提供计算资源的executor的启动参数
  只需要在driver所在的机器上编辑该文件,不需要在worker或master所运行的机器上编辑该文件
  举个实际的例子

spark.executor.extraJavaOptions   -XX:MaxPermSize=896m
spark.executor.memory   5g
spark.serializer      org.apache.spark.serializer.KryoSerializer
spark.cores.max32
spark.shuffle.managerSORT
spark.driver.memory2g

  上述配置表示为该application提供计算资源的executor启动时, heap memory需要有5g。
  这里需要引起注意的是,如果worker在加入cluster的时候,申明自己所在的机器只有4g内存,那么为上述的application分配executor是,该worker不能提供任何资源,因为4g
页: [1]
查看完整版本: Apache Spark技术实战之6