设为首页 收藏本站
查看: 1529|回复: 0

[经验分享] Spark 2.x企业级大数据项目实战(实时统计、离线分析和实时ETL)

[复制链接]

尚未签到

发表于 2019-1-31 06:18:45 | 显示全部楼层 |阅读模式
  Spark 2.x企业级大数据项目实战(实时统计、离线分析和实时ETL)
全套课程下载:https://pan.baidu.com/s/1mje6bAoLLPrxUIrM-C2VMg 提取码: 9n1x
  本门课程来源于一线生产项目, 所有代码都是在现网大数据集群上稳定运行, 拒绝Demo。课程涵盖了离线分析、实时分析绝大部分的场景,通过三个实际生产项目教授如何优雅地集成Hadoop、Spark、HBase、Kafka、Redis、MySQL等相关大数据技术,并实际落地 。
  本门课程全程实操,不用担心基础不好, 讲师将会从每个项目的演进过程详细分析, 手把手搭建开发环境, 每个功能点都有代码实操, 拿到生产上可以直接使用。
  本门课程大量生产上的较佳实践,不仅能为技术选型提供参考, 也能大幅度提升个人的知识和技术水平, 学完可以胜任PB级大数据的开发和优化,面试中说出来都是亮点, 是跳槽、转型、加薪的利器,让你轻松实现华丽转身。 只要你有一点Hadoop、Spark和Scala基础,并且能保持学习的热情, 那么就跟随老师来吧。
  第一章:流式数据实时分析(Kafka+SparkStreaming+Redis)
  1、流式实时数据分析项目实战内容提纲(企业级开发、仿双十一订单实时统计及性能优化)
2、SparkStreaming实时状态统计应用引出容灾恢复(高可用)和更新状态性能问题
3、SparkStreaming应用代码初步重构及引出实时累加应用高可用性(设置检查点及恢复)
4、StreamingContext创建优化(非第一次启动应用从检查点目录构建)及代码演示(高可用性)
5、SparkStreaming中mapWithState实时状态更新函数使用说明
6、模拟电商购物节订单分析:订单分析需求说明及准备(创建Topic及开发环境)
7、模拟电商购物节订单分析:调用Kafka Producer API模拟产生JSON格式订单数据发送Topic中(一)
8、模拟电商购物节订单分析:调用Kafka Producer API模拟产生JSON格式订单数据发送Topic中(二)
9、模拟电商购物节订单分析:针对SparkStreaming实时流式应用数据分析利用Scala贷出模式编写应用开发模块
10、模拟电商购物节订单分析:采用Direct方式获取KAFKA数据并解析JSON格式
11、模拟电商购物节订单分析:updateStateByKey实时累加统计各省份销售额(重载函数使用)
12、模拟电商购物节订单分析:Redis内存数据库介绍、下载和配置、启动服务及CLI基本使用
13、模拟电商购物节订单分析:实时累加统计各省份销售额保存Redis 数据库哈希Hash
14、模拟电商购物节订单分析:最近窗口数据Top5省份订单量(集成SparkSQL,注册临时视图,SQL分析)
15、模拟电商购物节订单分析:实时应用性能优化(设置分区最大数目、数据本地性等待时间、反压机制、内存GC等)
  第二章:离线日志分析项目(SparkCore+HBase+MySQL)
  16、某旅游电商用户行为分析系统数据、业务调研深入剖析
17、某旅游电商用户行为分析系统项目架构设计(技术架构)-架构三原则
18、基于SparkCore实现用户行为分析环境准备
19、数据ETL:SparkCore读取数据及解析日志数据
20、数据ETL:过滤不合格的数据(解析异常或事件类型不对)和引出广播变量
21、数据ETL:使用广播变量优化程序过滤数据
22、数据ETL:如何设计HBase表及RowKey组成设计
23、数据ETL:实现RowKey拼接及构建Put对象
24、数据ETL:定义函数依据传递处理日期参数来创建HBase表(先判断,再删除)
25、数据ETL:指定预分区、设置压缩等创建表及测试保存数据至HBase表
26、数据ETL:ETL操作时程序代码优化点详细剖析(预分区、广播变量及批量加载数据:跳过WAL和转换HFile)
27、新增用户分析:需求调研的说明(不同维度分析)及读取HBase表的不同字段值
28、新增用户分析:从HBase表中读取数据,设置Scan过滤条件(一)
29、新增用户分析:从HBase表中读取数据,设置Scan过滤条件(二)
30、新增用户分析:转换读取HBase表数据并进行维度数据组合
31、新增用户分析:基本维度分析和浏览器维度分析
32、读写HBase表数据引出优化:针对HFile数据文件进行读写操作(提高性能、减轻集群负载)
33、优化数据ETL:阅读ImportTsv源码找出HFile数据变换、修改数据转换格式为KeyValue及细节处理
34、优化数据ETL:完成数据写入至HFile文件、加载HFiles至HBase表中及本地测试
35、提交运行:将数据ETL程序打JAR包,编写Shell脚本,提交运行(查找程序依赖第三方JAR包)
36、提交运行:增加属性文件配置,针对本地测试和集群测试读取IP地址解析仿真数据文件进行优化
37、使用SparkSQL针对新增用户业务编程分析:将RDD转换为DataFrame
38、使用SparkSQL针对新增用户业务编程分析:分别使用DSL和SQL进行指标分析和引出如何保存结果数据至MySQL表中
39、综合回顾复习Spark读取HBase数据三种方式(Scan、HFile、HBaseContext)及优缺点剖析
40、HBase中快照SnapShot使用及采用TableSnapshotInputFormat读取HBase表中数据(以销售订单表为例,读取HFile文件)
41、优化新增用户分析:修改程序读取表的HFiles进行数据分析(创建快照,使用TableSnapshotInputFormat)
42、优化新增用户分析:使用foreachPartition方式将分析结果保存至MySQL表中(Key存在更新及不存在插入)一
43、优化新增用户分析:使用foreachPartition方式将分析结果保存至MySQL表中(Key存在更新及不存在插入)二
  第三章:企业数据实时ETL(Kafka+SparkStreaming+HBase+Redis)
  44、实时数据ETL:分析需求(实时将数据ETL到不同HBase表中)及准备开发环境(模拟测试数据,创建Topic等)
45、实时数据ETL:SparkStreaming读取Kafka Topic数据,解析orderType,自定义分区器将同类型数据重分区到一个分区
46、实时数据ETL:不同支付类型订单数据创建不同HBase表(封装插入数据方法)
47、实时数据ETL:编写代码数据插入HBase表、联动测试(模拟实时产生数据,实时消费,分区数据,插入表中)
48、SparkStreaming采用Direct方式读取Kafka Topic数据的自动管理Offsets方法深入剖析、使用Redis或Zookeeper等管理偏移量
49、优化实时数据ETL:从Redis中读取Topic的各个分区消费偏移量信息(使用哈希Hash存储)及编码测试
50、优化实时数据ETL:当每批次数据插入HBase表以后,将Topic各个分区数据消费偏移量保存Redis中
51、监控扩展:Zookeeper Cluster常见监控工具及zkUI监控工具使用详解
52、监控扩展:Kafka Cluster常见监控工具及Kafka Eagle监控工具使用详解




运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-669751-1-1.html 上篇帖子: 王家林每日大数据语录Spark篇0014(2015.11.4于南宁) 下篇帖子: 基于大数据技术之电视收视率企业(hadoop+Spark)视频教程下载
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表