Apache Spark技术实战之4

longpan · 发表于 2015-7-31 11:08:18

　　欢迎转载，转载请注明出处。

概要
　　本文简要介绍如何使用spark-cassandra-connector将json文件导入到cassandra数据库，这是一个使用spark的综合性示例。

前提条件
　　假设已经阅读技术实战之3,并安装了如下软件

jdk
scala
sbt
cassandra
spark-cassandra-connector

实验目的
　　将存在于json文件中的数据导入到cassandra数据库，目前由cassandra提供的官方工具是json2sstable，由于对cassandra本身了解不多，这个我还没有尝试成功。
　　但想到spark sql中可以读取json文件，而spark-cassadra-connector又提供了将RDD存入到数据库的功能，我想是否可以将两者结合一下。

创建KeySpace和Table
　　为了减少复杂性，继续使用实战3中的keyspace和table，

CREATE KEYSPACE test WITH replication = {'class': 'SimpleStrategy', 'replication_factor': 1 };
CREATE TABLE test.kv(key text PRIMARY KEY, value int);

启动spark-shell
　　与实战3中描述一致。

bin/spark-shell --driver-class-path /root/working/spark-cassandra-connector/spark-cassandra-connector/target/scala-2.10/spark-cassandra-connector_2.10-1.1.0-SNAPSHOT.jar:/root/.ivy2/cache/org.apache.cassandra/cassandra-thrift/jars/cassandra-thrift-2.0.9.jar:/root/.ivy2/cache/org.apache.thrift/libthrift/jars/libthrift-0.9.1.jar:/root/.ivy2/cache/org.apache.cassandra/cassandra-clientutil/jars/cassandra-clientutil-2.0.9.jar:/root/.ivy2/cache/com.datastax.cassandra/cassandra-driver-core/jars/cassandra-driver-core-2.0.4.jar:/root/.ivy2/cache/io.netty/netty/bundles/netty-3.9.0.Final.jar:/root/.ivy2/cache/com.codahale.metrics/metrics-core/bundles/metrics-core-3.0.2.jar:/root/.ivy2/cache/org.slf4j/slf4j-api/jars/slf4j-api-1.7.7.jar:/root/.ivy2/cache/org.apache.commons/commons-lang3/jars/commons-lang3-3.3.2.jar:/root/.ivy2/cache/org.joda/joda-convert/jars/joda-convert-1.2.jar:/root/.ivy2/cache/joda-time/joda-time/jars/joda-time-2.3.jar:/root/.ivy2/cache/org.apache.cassandra/cassandra-all/jars/cassandra-all-2.0.9.jar:/root/.ivy2/cache/org.slf4j/slf4j-log4j12/jars/slf4j-log4j12-1.7.2.jar

准备json文件
　　以spark自带的person.json文件为例，内容如下所示

{"name":"Andy", "age":30}
{"name":"Justin", "age":19}

数据导入
　　假设person.json文件存储在$SPARK_HOME目录，在启动spark-shell之后，执行如下语句

sc.stop
import com.datastax.spark.connector._
import org.apache.spark._
val conf = new SparkConf()
conf.set("spark.cassandra.connection.host", "127.0.0.1")
val sc = new SparkContext("local[2]", "Cassandra Connector Test", conf)
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
val path = "./people.json"
val people = sqlContext.jsonFile(path)
people.map(p=>(p.getString(10),p.getInt(0)))
.saveToCassandra("test","kv",SomeColumns("key","value"))

　　注意:

jsonFile返回的是jsonRDD，其中每一个成员是Row类型，并不行直接将saveToCassandra作用于jsonRDD，需要先作一步转换即map过程
map中使用到的getXXX函数是在事先已知数据类型的情况下取出其值
最后saveToCassandra触发数据的存储过程

　　另外一个地方值得记录一下，如果在cassandra中创建的表使用了uuid作为primary key，在scala中使用如下函数来生成uuid

import java.util.UUID
UUID.randomUUID

验证步骤
　　使用cqlsh来查看数据是否已经真正的写入到test.kv表中。

小结
　　本次实验结合了以下知识

spark sql
spark RDD的转换函数
spark-cassandra-connector

账号		自动登录	找回密码
密码			立即注册

c++ size_t 和 int 的区别

HERE 使用 AWS EF 和 JFrog Artifactory 打

C++ 指针大全：从基础到进阶，一篇快速上手

wirelessnetview好用的无线分析工具

Red Hat RHCE 8 (EX294) Cert Guide

亿图图示专家(EDraw Max) V7.9 中文破解版

zabbix3.4.1安装部署+微信推送信息+大屏显

[经验分享] Apache Spark技术实战之4

扫码加入运维网微信交流群