慧9建 发表于 2017-1-4 08:41:24

在Kettle(PDI)跑Apache Spark作业

  原创文章,转载请注明出处:http://qq85609655.iteye.com/blog/2205156
  hadoop上要跑Apache Spark作业
  使用的ETL工具是Kettle(PDI)
  目前能够执行像mapreduce一样执行作业,插件以及demo在附近中

  将附件解压

  使用Apache Spark最大的原因是基于内存运算速度较快,性能较好,在实际应用中,Hive的使用范围比较广,需要将Hive基于Mapreduce的运算引擎切换为Apache Spark,在Apache Spark安装好后,执行如下命令,启动SparkSQL thrift JDBC/ODBC Server

./sbin/start-thriftserver.sh --master yarn --executor-memory 512m --hiveconf hive.server2.thrift.port=10050
  使用Hive Driver JDBC连接SparkSQL和查询数据
页: [1]
查看完整版本: 在Kettle(PDI)跑Apache Spark作业