hadoop扫盲

chenkehao 发表于 2018-10-30 08:47:19

　　1 hadoop 大数据平台架构和实践
　　掌握大数据存储与处理技术的原理
　　掌握hadoop开发
　　2 课程预报知识
　　linux 常用命令
　　java编程基础
　　3 hadoop前世今生
　　大数据到来 PB 级别的数据。
　　mapreduce、GFS
　　并行，节点同步，开发了技术论文，没开放源代码。
　　hadoop ***小象。
　　4 hadoop 的功能和优势
　　开源分布式存取 + 分布式计算平台。
　　HDFS:分布式文件系统，
　　任务调度。
　　高扩展、低成本、成熟的生态圈。
　　hadoop 人才需求，开发人才、运维
　　5 生态系统版本
　　HDFS MAPreduce hive
　　sql -> hive -> hadoop
　　hbase 非关系型数据库
　　zookeeper 动物管理员
　　版本选择，2.6版本 1.2 版本稳定版
　　6 hadoop的安装
　　1 linux 环境
　　2 安装jdk
　　3 配置hadoop 4 个配置文件
　　可以租用云主机。阿里云不错的选择哦。
　　7 hadoop的核心文件
　　HDFS 体系结构
　　读取元数据 dateNode 是工作节点
　　数据管理策略：三份存、64M数据库，心跳检测、定期汇报状态、二级namenode、定期同步到，就是各种备份，自动同步呗。
　　读写流程：什么程序都有可能。流水线复制。更新源数据。
　　特点：数据冗余、硬件容错。流式的数据访问、无法修改，直接删除后添加。存储大文件。批量读写，吞吐量大，一次写入，多次读写，交互性能差
　　命令行操作：类似shell 编程。
　　8 map reduce 分大任务到小任务、合并结果在一起。
　　100GB的网站访问日志文件，找错访问次数最多的IP
　　交换很重要、
　　运行流程：
　　基本概念：job taskone job to more task
　　jobtracker map任务和 reduce任务。
　　jobtracker 1 作业调度 2 分配任务、监控任务执行进度
　　监控tasktracker的状态
　　执行任务、汇报任务状态。
　　输入数据分片、map任务、中间结果、reduce任务、输出结果。
　　HDFS表中。
　　jobtracker 任务、执行过程。
　　容错机制、重复执行、先重试4次，默认放弃，推测执行。map端完成后，tasktracker执行。
　　9 应用案例：
　　wordcount 经典记录：
　　计算文件中出现每个单词的频数、
　　map过程分
　　reduce过程合

页: [1]

运维网's Archiver

hadoop扫盲