设为首页 收藏本站
查看: 1580|回复: 0

[经验分享] Spark Streaming 实现数据实时统计案例

[复制链接]

尚未签到

发表于 2019-1-30 11:54:50 | 显示全部楼层 |阅读模式
  Spark 是一个基于内存式的分布式计算框架。具有高性能,高效可扩展,容错等优点。
  今天讲解一下spark的流计算,其实它也不完全是实时的流计算,算是一种准实时的流计算。
  上图讲解

  运行环境:需要linux环境下的spark环境
  本例用的centOS 6.5x64 因为需要使用TCP协议传输数据,所以需要安装一个nc插件。
  安装方式: yum  install ncxxx 或者挂载光盘安装
  安装后启动nc -lk 9999 端口可以随便指定,最好是1024以上的就可以。
  下面贴出代码
  java版本的
import java.util.Arrays;
import java.util.List;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.streaming.Durations;
import org.apache.spark.streaming.api.java.JavaDStream;
import org.apache.spark.streaming.api.java.JavaPairDStream;
import org.apache.spark.streaming.api.java.JavaReceiverInputDStream;
import org.apache.spark.streaming.api.java.JavaStreamingContext;
import com.google.common.base.Optional;
import scala.Tuple2;
public class SparkDemo {
public static void main(String[] args) {
SparkConf conf=new SparkConf().setAppName("sparkDemo2").setMaster("local[3]");
JavaStreamingContext jsc=new JavaStreamingContext(conf,Durations.seconds(5));
//使用带状态的算子,需要checkpoint做容错处理
jsc.checkpoint("D://chkspark");
JavaReceiverInputDStream socketTextStream=jsc.socketTextStream("10.115.27.234", 1000);
JavaDStream wordsDstream=socketTextStream.flatMap(new FlatMapFunction() {
private static final long serialVersionUID=1L;
public Iterable call(String line) throws Exception {
return Arrays.asList(line.split(" "));
}
});
JavaPairDStream wordsToPairDstream=wordsDstream.mapToPair(new PairFunction() {
private static final long SerialVersionUID=1L;
public Tuple2 call(String word) throws Exception {
return new Tuple2(word, 1);
}
});
/**
* 一个batch对应一个RDD。
* */
JavaPairDStream resultDstream=wordsToPairDstream.updateStateByKey(new Function2() {
private static final long serialVersionUID=1L;
public Optional call(List values, Optional state) throws Exception {
Integer oldValue=0;   //默认旧value是0
if (state.isPresent()) {
oldValue=state.get();
}
for (Integer value:values) {
oldValue+=value;
}
return Optional.of(oldValue);
}
});
//打印结果
resultDstream.print();
jsc.start();
jsc.awaitTermination();
}
}  程序测试: 从linux端的nc 下输入任意字符串,spark streaming会实时对输入的数据做出统计。类似于wordcount. 除非手动kill这个进程,否则会一直运行下去。因为它的原理就是和自来水的水流一样,是一连串的数据流。
  运行结果展示:

  也可以用scala写出同样的程序,代码量更少。
  需要深入理解spark streaming的架构原理。




运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-669593-1-1.html 上篇帖子: China Azure 在HDinsight 中使用Spark 功能 下篇帖子: WIn7下用Idea远程操作Spark
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表