在Kettle(PDI)跑Apache Spark作业

慧9建 发表于 2017-1-4 08:41:24

　　原创文章，转载请注明出处：http://qq85609655.iteye.com/blog/2205156
　　hadoop上要跑Apache Spark作业
　　使用的ETL工具是Kettle(PDI)
　　目前能够执行像mapreduce一样执行作业，插件以及demo在附近中

　　将附件解压

　　使用Apache Spark最大的原因是基于内存运算速度较快，性能较好，在实际应用中，Hive的使用范围比较广，需要将Hive基于Mapreduce的运算引擎切换为Apache Spark，在Apache Spark安装好后，执行如下命令，启动SparkSQL thrift JDBC/ODBC Server

./sbin/start-thriftserver.sh --master yarn --executor-memory 512m --hiveconf hive.server2.thrift.port=10050
　　使用Hive Driver JDBC连接SparkSQL和查询数据

页: [1]

运维网's Archiver

在Kettle(PDI)跑Apache Spark作业