第4课：Spark Streaming事物处理彻底掌握

陈辉煌 发表于 2019-1-31 06:56:50

　　Exactly Once:
　　1、能够处理且只被处理一次
　　2、能够输出且只被输入一次
　　数据会积累到一定的程度，才会写到磁盘或内存，所以在还没积累到一定程度的时候，数据有可能丢失几条.但是和Kafka结合就不会.
　　

　　SparkContext：
　　1.获取数据
　　2.产生作业
　　

　　WAL 很少失败，因为是存在HDFS上的,HDFS天然具有副本机制
　　基于Spark Streaming 天然的会Task重试和Stage重试
　　

　　Spark Streaming事物处理流程图：
http://s3.运维网.com/wyfs02/M00/7F/D4/wKiom1cu2AuA3DEoAADf-MGQVDU478.png
http://s3.运维网.com/wyfs02/M00/7F/D1/wKioL1cu2OmQcqngAACq4gBxS3s291.png
　　

　　

http://s2.运维网.com/wyfs02/M01/7F/D4/wKiom1cu2BHxEkyjAABlq7V2KOA368.png
备注：
这是我的Spark版本定制班学习笔记
更多私密内容，请关注微信公众号：DT_Spark
如果您对大数据Spark感兴趣，可以免费听由王家林老师每天晚上20：00开设的Spark永久免费公开课，地址YY房间号：68917580
　　

页: [1]

运维网's Archiver

第4课：Spark Streaming事物处理彻底掌握