零基础Hadoop入门，哪里学起?

慧9建 · 发表于 2018-10-28 11:48:27

　　1 Hadoop入门教程
　　Hadoop是Apache开源组织的一个分布式计算开源框架(http://hadoop.apache.org/)，用java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是：HDFS和MapReduce，HDFS实现存储，而MapReduce实现原理分析处理，这两部分是hadoop的核心。数据在Hadoop中处理的流程可以简单的按照下图来理解：数据通过Haddop的集群处理后得到结果，它是一个高性能处理海量数据集的工具。分享之前我还是要推荐下我自己创建的大数据学习交流Qun710219868 进Qun聊邀请码填写南风（必填）我就知道是你了
　　1.2 HDFS文件系统
　　HDFS（Hadoop Distributed File System，Hadoop分布式文件系统），它是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，适合那些有着超大数据集（largedata set）的应用程序。
　　HDFS的设计特点:
　　1、大数据文件，非常适合上T级别的大文件或者一堆大数据文件的存储。
　　2、文件分块存储，HDFS会将一个完整的大文件平均分块存储到不同计算器上，它的意义在于读取文件时可以同时从多个主机取不同区块的文件，多主机读取比单主机读取效率要高得多。
　　3、流式数据访问，一次写入多次读写，这种模式跟传统文件不同，它不支持动态改变文件内容，而是要求让文件一次写入就不做变化，要变化也只能在文件末添加内容。
　　4、廉价硬件，HDFS可以应用在普通PC机上，这种机制能够让给一些公司用几十台廉价的计算机就可以撑起一个大数据集群。
　　5、硬件故障，HDFS认为所有计算机都可能会出问题，为了防止某个主机失效读取不到该主机的块文件，它将同一个文件块副本分配到其它某几个主机上，如果其中一台主机失效，可以迅速找另一块副本取文件。
　　HDFS的master/slave构架:
　　一个HDFS集群是有一个Namenode和一定数目的Datanode组成。Namenode是一个中心服务器，负责管理文件系统的namespace和客户端对文件的访问。Datanode在集群中一般是一个节点一个，负责管理节点上它们附带的存储。在内部，一个文件其实分成一个或多个block，这些block存储在Datanode集合里。Namenode执行文件系统的namespace操作，例如打开、关闭、重命名文件和目录，同时决定block到具体Datanode节点的映射。Datanode在Namenode的指挥下进行block的创建、删除和复制。Namenode和Datanode都是设计成可以跑在普通的廉价的运行linux的机器上。
　　HDFS的关键元素:
　　1、Block：将一个文件进行分块，通常是64M。
　　2、NameNode：保存整个文件系统的目录信息、文件信息及分块信息，这是由唯一一台主机专门保存，当然这台主机如果出错，NameNode就失效了。在Hadoop2.*开始支持activity-standy模式----如果主NameNode失效，启动备用主机运行NameNode。
　　3、DataNode：分布在廉价的计算机上，用于存储Block块文件。
　　HDFS架构图
　　4、Namenode全权管理数据块的复制，它周期性地从集群中的每个Datanode接收心跳信号和块状态报告(Blockreport)。接收到心跳信号意味着该Datanode节点工作正常。块状态报告包含了一个该Datanode上所有数据块的列表。
　　5、参考资料
　　HDFS Java API:http://hadoop.apache.org/core/docs/current/api/
　　HDFS源代码:http://hadoop.apache.org/core/version_control.html
　　1.3 MapReduce文件系统
　　MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。MapReduce将分成两个部分"Map（映射）"和"Reduce（归约）"。
　　当你向MapReduce框架提交一个计算作业时，它会首先把计算作业拆分成若干个Map任务，然后分配到不同的节点上去执行，每一个Map任务处理输入数据中的一部分，当Map任务完成后，它会生成一些中间文件，这些中间文件将会作为Reduce任务的输入数据。Reduce任务的主要目标就是把前面若干个Map的输出汇总到一起并输出。
　　MapReduce流程图：

　　MapReduce流程图
　　步骤1：首先对输入数据源进行切片
　　步骤2：master调度worker执行map任务
　　步骤3：worker读取输入源片段
　　步骤4：worker执行map任务，将任务输出保存在本地
　　步骤5：master调度worker执行reduce任务，reduce worker读取map任务的输出文件
　　步骤6：执行reduce任务，将任务输出保存到HDFS

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] 零基础Hadoop入门，哪里学起?

浏览过的版块

扫码加入运维网微信交流群