设为首页 收藏本站
查看: 1106|回复: 0

[经验分享] Hadoop云计算系统概述

[复制链接]

尚未签到

发表于 2018-10-31 12:18:52 | 显示全部楼层 |阅读模式
一、Hadoop云计算系统
1、对Hadoop体系结构认知
  现在有很多公司都推出了自己的云计算平台,如IBM、Amazon、Microsoft。Hadoop是Apache组织的一个分布式框架,是Google的云计算平台的开源实现。
  Hadoop主要由以下几个子项目构成:
  (1)Hadoop Common:原来的Hadoop Core,是Hadoop项目的计算核心,其他的子项目都是在这个核心的基础上发展的。
  (2)Avro:Hadoop的RPC(Remote Procedure Call ,远程过程调用)方案。
  (3)Chukwa:一个用来管理大型分布式系统的数据采集系统。
  (4)HbaseHadoopDatabase支持结构化数据存储的分布式数据库。
  (5)HDFSHadoopDistributed File System,高吞吐量的分布式文件系统。
  (6)Hive:提供数据摘要和查询功能的数据仓库。
  (7)MapReduce:大数据的分布式处理模型。
  (8)Pig:建立在MapReduce上的高级数据流语言。
  (9)ZooKeeper:用于解决分布式系统的一致性问题。
  Hadoop云计算系统
Google云计算系统

  Hadoop HDFS
  Google GFS
  Hadoop MapReduce
  Google  MapReduce
  Hadoop HBase
  Google  Bigtable
  Hadoop ZooKeeper
  Google Chubby
  Hadoop Pig
  Google Sawzall
  两个系统的对比
2、Hadoop的优点
  1、开源:就不多说了
  2、经济:分布式运行到多个廉价PC上
  3、可扩展:存储可扩展和计算可扩展
  4、可靠:HDFS的备份恢复机制和MapReduce的任务监控机制保证分布式处理的可靠性。
  5、高效:分布式文件的高效数据交互,各节点的动态数据交互并保证动态平衡(目前脑子没概念)。
二、HDFS
1、体系结构
  HDFS(HadoopDistributed File System)是Hadoop系统底层的分布式文件管理系统。主要包括NameNode、DataNode、元数据及数据块的操作。
  对外部客户机而言,HDFS 就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。但是 HDFS 的架构是基于一组特定的节点构建的,这是由它自身的特点决定的。这些节点包括 NameNode(仅一个),它在HDFS 内部提供元数据服务;DataNode,它为 HDFS 提供存储块。由于仅存在一个 NameNode,具有单点失效风险(SinglePoint Of Failure),这也是HDFS 的一个缺点。
  存储在 HDFS 中的文件被分成块,然后将这些块复制到多个计算机中(DataNode)。这与传统的 RAID架构大不相同。块的大小(通常为 64MB)和复制的块数量在创建文件时由客户机决定。NameNode 可以控制所有文件操作。HDFS内部的所有通信都基于标准的 TCP/IP 协议。

  图 2-1  结构原理图(摘自官网)
3、相关概念
  NameNode通常在 HDFS 实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。NameNode 决定是否将文件映射到DataNode 上的复制块上。对于最常见的 3 个复制块,第一个复制块存储在同一机架的不同节点上,最后一个复制块存储在不同机架的某个节点上。NameNode管理文件系统的元数据,只有表示DataNode 和块的文件映射的元数据经过 NameNode。DataNode存储实际的数据。客户端联系NameNode以获取文件的元数据,实际的 I/O事务并没有经过 NameNode,而是直接和DataNode交互。当外部客户机发送请求要求创建文件时,NameNode 会以块标识和该块的第一个副本的DataNode IP 地址作为响应。这个 NameNode 还会通知其他将要接收该块的副本的DataNode。
  NameNode在一个称为 FsImage 的文件中存储所有关于文件系统名称空间的信息。这个文件和一个包含所有事务的记录文件(这里是EditLog)将存储在 NameNode 的本地文件系统上。FsImage和 EditLog 文件也需要复制副本,以防文件损坏或 NameNode 系统丢失。
  DataNodeDataNode也是一个通常在 HDFS 实例中的单独机器上运行的软件。Hadoop集群包含一个 NameNode 和大量 DataNode。DataNode通常以机架的形式组织,机架通过一个交换机将所有系统连接起来。Hadoop 的一个假设是:机架内部节点之间的传输速度快于机架间节点的传输速度。DataNode 响应来自 HDFS 客户机的读写请求。它们还响应来自 NameNode 的创建、删除和复制块的命令。NameNode依赖来自每个 DataNode 的定期心跳(heartbeat)消息。每条消息都包含一个块报告,NameNode 可以根据这个报告验证块映射和其他文件系统元数据。如果 DataNode 不能发送心跳消息,NameNode将采取修复措施,重新复制在该节点上丢失的块。
三、Hbase
1、Hbase的数据模型
  Row  Key
  Timestamp
  Column  Family
  表的主键,默认升序
  操作对应数据的时间戳
  水平方向有一个或多个列族,每个列族由任意多列组成,并且支持动态扩展,数据以二进制形式存储.
2、内部处理机制
  Table随着记录数不断增加而变大后,会逐渐分裂成多份splits,成为regions,一个region由[startkey,endkey)表示,不同的region会被Master分配给相应的RegionServer进行管理。
  HBase中有两张特殊的Table,-ROOT-和.META.
  .META.:记录了用户表的Region信息,.META.可以有多个regoin
  -ROOT-:记录了.META.表的Region信息,-ROOT-只有一个region
  Zookeeper中记录了-ROOT-表的location
  当Client访问用户数据之前需要首先访问zookeeper,然后访问-ROOT-表,接着访问.META.表,最后才能找到用户数据的位置去访问,中间需要多次网络操作,不过client端会做cache缓存。
3、常用的操作
  觉得和以前的SQL原理类似,有DML和DDL,还有权限管理以及工具命令等。常用的有create,describe,disable,drop,list,scan,put,get,delete,deleteall,count,status,grant,revoke,user_permission等。


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-628963-1-1.html 上篇帖子: hadoop的安全模式 下篇帖子: Ubuntu 12.04搭建hadoop单机版环境
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表