第1讲-Spark的前世今生 第3讲-Scala编程详解:基础语法 第5讲-Scala编程详解:函数入门 第7讲-Scala编程详解:函数入门之变长参数 第9讲-Scala编程详解:数组操作之Array、ArrayBuffer以及遍历数组 第11讲-Scala编程详解:Map与Tuple 第13讲-Scala编程详解:面向对象编程之对象 第15讲-Scala编程详解:面向对象编程之Trait 第17讲-Scala编程详解:函数式编程之集合操作 第19讲-Scala编程详解:类型参数 第21讲-Scala编程详解:Actor入门 第22讲-课程环境搭建:CentOS 6.5集群搭建 第24讲-课程环境搭建:Hive 0.13搭建 第26讲-课程环境搭建:kafka_2.9.2-0.8.1集群搭建 三、Spark核心编程: 第29讲-Spark核心编程:使用Java、Scala和spark-shell开发wordcount程序 第31讲-Spark核心编程:Spark架构原理 第33讲-Spark核心编程:操作RDD实战(transformation和action案例实战) 第35讲-Spark核心编程:action操作开发案例实战 第37讲-Spark核心编程:共享变量(Broadcast Variable和Accumulator) 第39讲-Spark核心编程:高级编程之二次排序实战 四、Spark内核源码深度剖析: 第42讲-Spark内核源码深度剖析:宽依赖与窄依赖深度剖析 第44讲-Spark内核源码深度剖析:SparkContext初始化原理剖析与源码分析 第46讲-Spark内核源码深度剖析:Master注册机制原理剖析与源码分析 第48讲-Spark内核源码深度剖析:Master资源调度算法原理剖析与源码分析 第50讲-Spark内核源码深度剖析:Job触发流程原理剖析与源码分析 第52讲-Spark内核源码深度剖析:TaskScheduler原理剖析与源码分析(task分配算法) 第54讲-Spark内核源码深度剖析:Task原理剖析与源码分析 第56讲-Spark内核源码深度剖析:BlockManager原理剖析与源码分析(Spark底层存储机制) 第58讲-Spark内核源码深度剖析:Checkpoint原理剖析与源码分析 第59讲-Spark性能优化:性能优化概览 第61讲-Spark性能优化:高性能序列化类库 第63讲-Spark性能优化:对多次使用的RDD进行持久化或Checkpoint 第65讲-Spark性能优化:Java虚拟机垃圾回收调优 第67讲-Spark性能优化:广播共享数据 第69讲-Spark性能优化:reduceByKey和groupByKey 六、Spark SQL: 第72讲-Spark SQL:前世今生 第74讲-Spark SQL:使用反射方式将RDD转换为DataFrame 第76讲-Spark SQL:数据源之通用的load和save操作 第78讲-Spark SQL:Parquet数据源之自动分区推断 第80讲-Spark SQL:JSON数据源复杂综合案例实战 第82讲-Spark SQL:JDBC数据源复杂综合案例实战 第84讲-Spark SQL:开窗函数以及top3销售额统计案例实战 第86讲-Spark SQL:UDAF自定义聚合函数实战 第87讲-Spark SQL:与Spark Core整合之每日top3热点搜索词统计案例实战 第87讲-Spark SQL:延伸知识之Hive On Spark 第88讲-Spark Streaming:大数据实时计算介绍 第90讲-Spark Streaming:与Storm的对比分析 第92讲-Spark Streaming:StreamingContext详解 第94讲-Spark Streaming:输入DStream之基础数据源以及基于HDFS的实时wordcount案例实战 第96讲-Spark Streaming:输入DStream之Kafka数据源实战(基于Direct的方式) 第98讲-Spark Streaming:updateStateByKey以及基于缓存的实时wordcount案例实战 第100讲-Spark Streaming:window滑动窗口以及热点搜索词滑动统计案例实战 第102讲-Spark Streaming:与Spark SQL结合使用之top3热门商品实时统计案例实战 第104讲-Spark Streaming:Checkpoint机制详解(Driver高可靠方案详解) 第106讲-Spark Streaming:容错机制以及事务语义详解 第108讲-Spark Streaming:StreamingContext初始化与Receiver启动原理剖析与源码分析 第110讲-Spark Streaming:数据处理原理剖析与源码分析(block与batch关系透彻解析) 第112讲-课程总结(学到了什么?达到了什么水平?) 一、Scala编程进阶: 第114讲-Scala编程进阶:跳出循环语句的3种方法 第116讲-Scala编程进阶:Tuple拉链操作、Java Map与Scala Map的隐式转换 第118讲-Scala编程进阶:package与import实战详解 第120讲-Scala编程进阶:文件操作实战详解 第122讲-Scala编程进阶:执行外部命令 第124讲-Scala编程进阶:提取器实战详解 第126讲-Scala编程进阶:只有一个参数的提取器 第128讲-Scala编程进阶:常用注解介绍 第130讲-Scala编程进阶:XML中嵌入scala代码 第132讲-Scala编程进阶:XML加载和写入外部文档 第134讲-Scala编程进阶:集合的常用操作方法 第136讲-Scala编程进阶:reduce和fold实战详解 第137讲-环境搭建-CentOS 6.4虚拟机安装 第139讲-环境搭建-Spark 1.5伪分布式集群搭建 第141讲-Spark核心编程进阶-Spark集群架构概览 第143讲-Spark核心编程进阶-Spark的核心术语讲解 第145讲-Spark核心编程进阶-单独启动master和worker脚本详解 第147讲-Spark核心编程进阶-worker节点配置以及spark-evn.sh参数详解 第149讲-Spark核心编程进阶-实验:standalone client模式提交spark作业 第151讲-Spark核心编程进阶-standalone模式下的多作业资源调度 第153讲-Spark核心编程进阶-实验:运行中作业监控以及手工打印日志 第155讲-Spark核心编程进阶-yarn-cluster模式原理讲解 第157讲-Spark核心编程进阶-yarn模式下日志查看详解 第159讲-Spark核心编程进阶-spark工程打包以及spark-submit详解 第161讲-Spark核心编程进阶-实验:spark-submit简单版本提交spark作业 第163讲-Spark核心编程进阶-spark-submit多个示例以及常用参数详解 第165讲-Spark核心编程进阶-spark-submit配置第三方依赖 第167讲-Spark核心编程进阶-实验:对闭包变量进行累加操作的无效现象 第169讲-Spark核心编程进阶-mapPartitions以及学生成绩查询案例 第171讲-Spark核心编程进阶-sample以及公司年会抽奖案例 第173讲-Spark核心编程进阶-intersection以及公司跨多项目人员查询案例 第175讲-Spark核心编程进阶-aggregateByKey以及单词计数案例 第177讲-Spark核心编程进阶-coalesce以及公司部门整合案例 第179讲-Spark核心编程进阶-takeSampled以及公司年会抽奖案例 第181讲-Spark核心编程进阶-shuffle操作过程中进行数据排序 第183讲-Spark核心编程进阶-shuffle操作对性能消耗的原理详解 第185讲-Spark核心编程进阶-综合案例1:移动端app访问流量日志分析 第187讲-Spark核心编程进阶-综合案例1:读取日志文件并创建RDD 第189讲-Spark核心编程进阶-综合案例1:将RDD映射为key-value格式 第191讲-Spark核心编程进阶-综合案例1:自定义二次排序key类 第193讲-Spark核心编程进阶-综合案例1:执行二次排序以及获取top10数据 第195讲-Spark核心编程进阶-部署第二台CentOS机器 第197讲-Spark核心编程进阶-将第二个Hadoop节点动态加入集群 三、Spark内核原理进阶: 第200讲-Spark内核原理进阶-groupByKey算子内部实现原理剖析 第202讲-Spark内核原理进阶-distinct算子内部实现原理剖析 第204讲-Spark内核原理进阶-intersection算子内部实现原理剖析 第206讲-Spark内核原理进阶-sortByKey算子内部实现原理剖析 第208讲-Spark内核原理进阶-coalesce算子内部实现原理剖析 四、Spark SQL实战开发进阶: 第211讲-Spark SQL实战开发进阶-Thrift JDBC、ODBC Server 第213讲-Spark SQL实战开发进阶-综合案例2:新闻网站关键指标离线统计 第215讲-Spark SQL实战开发进阶-综合案例2:页面uv统计以及排序和count(distinct) bug说明 第217讲-Spark SQL实战开发进阶-综合案例2:用户跳出率统计 第219讲-Spark SQL实战开发进阶-综合案例2:测试与调试 第220讲-Spark Streaming实战开发进阶-flume安装 第222讲-Spark Streaming实战开发进阶-接收flume实时数据流-自定义sink的基于poll的方式 第224讲-Spark Streaming实战开发进阶-kafka安装 第226讲-Spark Streaming实战开发进阶-综合案例3:页面pv实时统计 第228讲-Spark Streaming实战开发进阶-综合案例3:注册用户数实时统计 第230讲-Spark Streaming实战开发进阶-综合案例3:版块pv实时统计 第231讲-Spark运维管理进阶-基于ZooKeeper实现HA高可用性以及自动主备切换 第233讲-Spark运维管理进阶-基于文件系统实现HA高可用性以及手动主备切换 第235讲-Spark运维管理进阶-作业监控-实验:通过Spark Web UI进行作业监控 第237讲-Spark运维管理进阶-作业监控-实验:启动HistoryServer查看历史作业的Web UI 第239讲-Spark运维管理进阶-作业监控-实验:Spark Metrics系统以及自定义Metrics Sink 第241讲-Spark运维管理进阶-作业资源调度-动态资源分配原理 第243讲-Spark运维管理进阶-作业资源调度-实验:yarn模式下使用动态资源分配 第245讲-Spark运维管理进阶-作业资源调度-Fair Scheduler使用详解 七、Spark 2.0深入浅出 第247讲-Spark 2.0-新特性介绍-易用性:标准化SQL支持以及更合理的API 第249讲-Spark 2.0-新特性介绍-智能化:Structured Streaming介绍 第251讲-Spark 2.0-新特性介绍-whole-stage code generation技术和vectorization技术 第253讲-Spark 2.0-课程环境搭建:虚拟机、CentOS、Hadoop、Spark等 第255讲-Spark 2.0-SparkSession、Dataframe、Dataset开发入门 第257讲-Spark 2.0-Dataset开发详解-action操作:collect、count、foreach、reduce等 第259讲-Spark 2.0-Dataset开发详解-typed操作:coalesce、repartition 第261讲-Spark 2.0-Dataset开发详解-typed操作:except、filter、intersect 第263讲-Spark 2.0-Dataset开发详解-typed操作:joinWith 第265讲-Spark 2.0-Dataset开发详解-typed操作:randomSplit、sample 第267讲-Spark 2.0-Dataset开发详解-聚合函数:avg、sum、max、min、count、countDistinct 第269讲-Spark 2.0-Dataset开发详解-其他常用函数 第271讲-Spark 2.0-Structured Streaming:wordcount入门案例 第273讲-Spark 2.0-Structured Streaming:创建流式的dataset和dataframe 第275讲-Spark 2.0-Structured Streaming:output mode、sink以及foreach sink详解 第277讲-Spark 2.0-Structured Streaming:基于checkpoint的容错机制 第278讲-Spark面试、简历中的项目编写以及实际生产环境的集群和资源配置等 链接:
|