chenkehao 发表于 2018-10-30 08:47:19

hadoop扫盲

  1 hadoop 大数据平台架构和实践
  掌握大数据存储与处理技术的原理
  掌握hadoop开发
  2 课程预报知识
  linux 常用命令
  java编程基础
  3 hadoop前世今生
  大数据到来 PB 级别的数据。
  mapreduce、GFS
  并行,节点同步,开发了技术论文,没开放源代码。
  hadoop ***小象。
  4 hadoop 的功能和优势
  开源 分布式存取 + 分布式计算平台。
  HDFS:分布式文件系统,
  任务调度。
  高扩展、低成本、成熟的生态圈。
  hadoop 人才需求,开发人才、运维
  5 生态系统版本
  HDFS MAPreduce hive
  sql -> hive -> hadoop
  hbase 非关系型数据库
  zookeeper 动物管理员
  版本选择,2.6版本 1.2 版本 稳定版
  6 hadoop的安装
  1 linux 环境
  2 安装jdk
  3 配置hadoop 4 个配置文件
  可以租用云主机。阿里云不错的选择哦。
  7 hadoop的核心文件
  HDFS 体系结构
  读取元数据 dateNode 是 工作节点
  数据管理策略:三份存、64M数据库,心跳检测、定期汇报状态、二级namenode、定期同步到,就是各种备份,自动同步呗。
  读写流程:什么程序都有可能。流水线复制。更新源数据。
  特点:数据冗余、硬件容错。流式的数据访问、无法修改,直接删除后添加。存储大文件。批量读写,吞吐量大,一次写入,多次读写,交互性能差
  命令行操作:类似shell 编程。
  8 map reduce 分大任务到小任务、合并结果在一起。
  100GB的网站访问日志文件,找错访问次数最多的IP
  交换很重要、
  运行流程:
  基本概念:job taskone job to more task
  jobtracker map任务 和 reduce任务。
  jobtracker 1 作业调度 2 分配任务、监控任务执行进度
  监控tasktracker的状态
  执行任务、汇报任务状态。
  输入数据分片、map任务、中间结果、reduce任务、输出结果。
  HDFS表中。
  jobtracker 任务、执行过程。
  容错机制、重复执行、先重试4次,默认放弃,推测执行。map端完成后,tasktracker执行。
  9 应用案例:
  wordcount 经典记录:
  计算文件中出现每个单词的频数、
  map过程 分
  reduce过程 合

页: [1]
查看完整版本: hadoop扫盲