在Kettle(PDI)跑Apache Spark作业
原创文章,转载请注明出处:http://qq85609655.iteye.com/blog/2205156hadoop上要跑Apache Spark作业
使用的ETL工具是Kettle(PDI)
目前能够执行像mapreduce一样执行作业,插件以及demo在附近中
将附件解压
使用Apache Spark最大的原因是基于内存运算速度较快,性能较好,在实际应用中,Hive的使用范围比较广,需要将Hive基于Mapreduce的运算引擎切换为Apache Spark,在Apache Spark安装好后,执行如下命令,启动SparkSQL thrift JDBC/ODBC Server
./sbin/start-thriftserver.sh --master yarn --executor-memory 512m --hiveconf hive.server2.thrift.port=10050
使用Hive Driver JDBC连接SparkSQL和查询数据
页:
[1]