第4课:Spark Streaming事物处理彻底掌握
Exactly Once:1、能够处理且只被处理一次
2、能够输出且只被输入一次
数据会积累到一定的程度,才会写到磁盘或内存,所以在还没积累到一定程度的时候,数据有可能丢失几条.但是和Kafka结合就不会.
SparkContext:
1.获取数据
2.产生作业
WAL 很少失败,因为是存在HDFS上的,HDFS天然具有副本机制
基于Spark Streaming 天然的会Task重试和Stage重试
Spark Streaming事物处理流程图:
http://s3.运维网.com/wyfs02/M00/7F/D4/wKiom1cu2AuA3DEoAADf-MGQVDU478.png
http://s3.运维网.com/wyfs02/M00/7F/D1/wKioL1cu2OmQcqngAACq4gBxS3s291.png
http://s2.运维网.com/wyfs02/M01/7F/D4/wKiom1cu2BHxEkyjAABlq7V2KOA368.png
备注:
这是我的Spark版本定制班学习笔记
更多私密内容,请关注微信公众号:DT_Spark
如果您对大数据Spark感兴趣,可以免费听由王家林老师每天晚上20:00开设的Spark永久免费公开课,地址YY房间号:68917580
页:
[1]