设为首页 收藏本站
查看: 849|回复: 0

[经验分享] 大数据hadoop从入门到精通

[复制链接]

尚未签到

发表于 2018-10-28 11:04:52 | 显示全部楼层 |阅读模式
  前言:
  ·   一、背景介绍
  ·   二、大数据介绍
  正文:
  ·   一、大数据相关的工作介绍
  ·   二、大数据工程师的技能要求
  ·   三、大数据学习规划
  ·   四、持续学习资源推荐(书籍,博客,网站)
  ·   五、项目案例分析(批处理+实时处理)
  前言
  一、背景介绍
  本人目前是一名大数据工程师,项目数据50T,日均数据增长20G左右,个人是从Java后端开发,经过3个月的业余自学成功转型大数据工程师。
  附上本人参考学习视频:
  参考学习视频:https://pan.baidu.com/s/1SnaWp_ls0V3Z_CgmhGkT7Q
  二、大数据介绍
  大数据本质也是数据,但是又有了新的特征,包括数据来源广、数据格式多样化(结构化数据、非结构化数据、Excel文件、文本文件等)、数据量大(最少也是TB级别的、甚至可能是PB级别)、数据增长速度快等。
  针对以上主要的4个特征我们需要考虑以下问题:

  • 数据来源广,该如何采集汇总?,对应出现了Sqoop,Cammel,Datax等工具。
  • 数据采集之后,该如何存储?,对应出现了GFS,HDFS,TFS等分布式文件存储系统。
  • 由于数据增长速度快,数据存储就必须可以水平扩展。
  • 数据存储之后,该如何通过运算快速转化成一致的格式,该如何快速运算出自己想要的结果?  对应的MapReduce这样的分布式运算框架解决了这个问题;但是写MapReduce需要Java代码量很大,所以出现了Hive,Pig等将SQL转化成MapReduce的解析引擎;
      普通的MapReduce处理数据只能一批一批地处理,时间延迟太长,为了实现每输入一条数据就能得到结果,于是出现了Storm/JStorm这样的低时延的流式计算框架;
      但是如果同时需要批处理和流处理,按照如上就得搭两个集群,Hadoop集群(包括HDFS+MapReduce+Yarn)和Storm集群,不易于管理,所以出现了Spark这样的一站式的计算框架,既可以进行批处理,又可以进行流处理(实质上是微批处理)。
  • 而后Lambda架构,Kappa架构的出现,又提供了一种业务处理的通用架构。
  • 为了提高工作效率,加快运速度,出现了一些辅助工具:
  • Ozzie,azkaban:定时任务调度的工具。
  • Hue,Zepplin:图形化任务执行管理,结果查看工具。
  • Scala语言:编写Spark程序的最佳语言,当然也可以选择用Python。
  • Python语言:编写一些脚本时会用到。
  • Allluxio,Kylin等:通过对存储的数据进行预处理,加快运算速度的工具。  以上大致就把整个大数据生态里面用到的工具所解决的问题列举了一遍,知道了他们为什么而出现或者说出现是为了解决什么问题,进行学习的时候就有的放矢了。
      正文
      一、大数据相关工作介绍
      大数据方向的工作目前主要分为三个主要方向:
  • 大数据工程师
  • 数据分析师
  • 大数据科学家
  • 其他(数据挖掘等)  二、大数据工程师的技能要求
      附上大数据工程师技能图:
  必须掌握的技能11条

  • Java高级(虚拟机、并发)
  • Linux 基本操作
  • Hadoop(HDFS+MapReduce+Yarn )
  • HBase(JavaAPI操作+Phoenix )
  • Hive(Hql基本操作和原理理解)
  • Kafka
  • Storm/JStorm
  • Scala
  • Python
  • Spark (Core+sparksql+Spark streaming )
  • 辅助小工具(Sqoop/Flume/Oozie/Hue等)  高阶技能6条
  • 机器学习算法以及mahout库加MLlib
  • R语言
  • Lambda 架构
  • Kappa架构
  • Kylin
  • Alluxio  三、学习路径
      假设每天可以抽出3个小时的有效学习时间,加上周末每天保证10个小时的有效学习时间;
      3个月会有(213+4210)3=423小时的学习时间。
      第一阶段(基础阶段)
      1)Java 高级学习(《深入理解Java虚拟机》、《Java高并发实战》)—30小时
  • 掌握多线程。
  • 掌握并发包下的队列。
  • 了解JMS。
  • 掌握JVM技术。
  • 掌握反射和动态代理。
  2)Linux学习(跟鸟哥学就ok了)—–20小时

  • Linux操作系统介绍与安装。
  • Linux常用命令。
  • Linux常用软件安装。
  • Linux网络。
  • 防火墙。
  • Shell编程等。
  参考学习视频:https://pan.baidu.com/s/1SnaWp_ls0V3Z_CgmhGkT7Q
  第二阶段(攻坚阶段)
  3)Hadoop (《Hadoop 权威指南》)—80小时

  • HDFS
  • HDFS的概念和特性。
  • HDFS的shell操作。
  • HDFS的工作机制。
  • HDFS的Java应用开发。
  • MapReduce
  • 运行WordCount示例程序。
  •   了解MapReduce内部的运行机制。
  • MapReduce程序运行流程解析。
  • MapTask并发数的决定机制。
  • MapReduce中的combiner组件应用。
  • MapReduce中的序列化框架及应用。
  • MapReduce中的排序。
  • MapReduce中的自定义分区实现。
  • MapReduce的shuffle机制。
  • MapReduce利用数据压缩进行优化。
  • MapReduce程序与YARN之间的关系。
  • MapReduce参数优化。
  • MapReduce的Java应用开发  4)Hive(《Hive开发指南》)–20小时
  • Hive 基本概念
  • Hive 应用场景。
  • Hive 与hadoop的关系。
  • Hive 与传统数据库对比。
  • Hive 的数据存储机制。
  • Hive 基本操作
  • Hive 中的DDL操作。
  • 在Hive 中如何实现高效的JOIN查询。
  • Hive 的内置函数应用。
  • Hive shell的高级使用方式。
  • Hive 常用参数配置。
  • Hive 自定义函数和Transform的使用技巧。
  • Hive UDF/UDAF开发实例。
  • Hive 执行过程分析及优化策略  5)HBase(《HBase权威指南》)—20小时
  • hbase简介。
  • habse安装。
  • hbase数据模型。
  • hbase命令。
  • hbase开发。
  • hbase原理。
  参考学习视频:https://pan.baidu.com/s/1SnaWp_ls0V3Z_CgmhGkT7Q
  6)Scala(《快学Scala》)–20小时

  • Scala概述。
  • Scala编译器安装。
  • Scala基础。
  • 数组、映射、元组、集合。
  • 类、对象、继承、特质。
  • 模式匹配和样例类。
  • 了解Scala Actor并发编程。
  • 理解Akka。
  • 理解Scala高阶函数。
  • 理解Scala隐式转换。
  参考学习视频:https://pan.baidu.com/s/1SnaWp_ls0V3Z_CgmhGkT7Q


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-627433-1-1.html 上篇帖子: 最新hadoop新手入门教程汇总 下篇帖子: hadoop hive执行count(*)提示OutOfMemoryError: Java heap
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表