陈辉煌 发表于 2019-1-31 06:56:50

第4课:Spark Streaming事物处理彻底掌握

  Exactly Once:
  1、能够处理且只被处理一次
  2、能够输出且只被输入一次
  数据会积累到一定的程度,才会写到磁盘或内存,所以在还没积累到一定程度的时候,数据有可能丢失几条.但是和Kafka结合就不会.
  

  SparkContext:
  1.获取数据
  2.产生作业
  

  WAL 很少失败,因为是存在HDFS上的,HDFS天然具有副本机制
  基于Spark Streaming 天然的会Task重试和Stage重试
  

  Spark Streaming事物处理流程图:
http://s3.运维网.com/wyfs02/M00/7F/D4/wKiom1cu2AuA3DEoAADf-MGQVDU478.png
http://s3.运维网.com/wyfs02/M00/7F/D1/wKioL1cu2OmQcqngAACq4gBxS3s291.png
  

  

http://s2.运维网.com/wyfs02/M01/7F/D4/wKiom1cu2BHxEkyjAABlq7V2KOA368.png
备注:
这是我的Spark版本定制班学习笔记
更多私密内容,请关注微信公众号:DT_Spark
如果您对大数据Spark感兴趣,可以免费听由王家林老师每天晚上20:00开设的Spark永久免费公开课,地址YY房间号:68917580
  




页: [1]
查看完整版本: 第4课:Spark Streaming事物处理彻底掌握