设为首页 收藏本站
查看: 590|回复: 0

[经验分享] Hbase概念

[复制链接]
累计签到:1 天
连续签到:1 天
发表于 2014-11-26 08:45:00 | 显示全部楼层 |阅读模式
Hbase简介
Hbase是一个分布式的, 面向列的开源数据库, 该技术来源于Chang et al所撰写的Google论文"Bigtable: 一个结构化数据的分布式存储系统"
就像Bigtable利用了Google文件系统( File System ) 所提供的分布式数据存储一样, Hbase在Hadoop之上提供了类似于Bigtable的能力
Hbase是Apache的Hadoop项目的子项目
Hbase不同于一般的关系数据库, 它是一个适合于非结构化数据存储的数据库, 另一个不同的是Hbase基于列的而不是基于行的模式

Hbase逻辑模型
以表的形式存放数据
表由行与列组成, 每个列属于某个列族, 由行和列确定的存储单元成为元素
每个元素保存了同一份数据的多个版本, 由时间戳来标识区分

行键
行键在数据行在表里的唯一标识, 并作为检索记录的主键
访问表里的行只有三种方式
1. 通过单个行键访问
2. 给定行键的范围访问
3. 全表扫描
行键可以使最大长度不超过64KB的任意字符串, 并按照字典序存储
对于经常要一起读取的行, 要对行键值精心设计, 以便它们能放在一起存储

列族与列
列表示为<列族>:<限定符>
Hbase在磁盘上按照列族存储数据, 这种列式数据库的设计非常适合于数据分析的情形
列族里的元素最好具有相同的读写方式( 列如等长的字符串 ), 以提高性能

时间戳
对应每次数据操作的时间, 可由系统自动生成, 也可以由用户显示的赋值
Hbase支持两种数据版本回收方式: 1 每个数据单元, 只存储指定个数的最新版本
                                                     2 保存指定时间长度的版本 ( 例如 7天 )
常见的客户端时间查询: "某个时刻起的最新数据" 或 "给我全部版本的数据"
元素由行键, 列族:限定符, 时间戳唯一决定
元素以字节码形式存放, 没有类型之分


Region和Region服务器
表在行方向上, 按照行键范围划分为若干的Region
每个表最初只有一个region, 当记录数增加到超过某个阈值时, 开始分裂成两个region
物理上所有数据存放在HDFS, 由Region服务器提供region的管理
一台物理节点只能跑一个HRegionServer
一个HRegionServer可以管理多个Region实例
一个Region实例包括Hlog日志和存放数据的Store
Hmaster作为总控节点
Zookeeper负责调度

HLog
用于灾难恢复
预写式日志, 记录所有更新操作, 操作先记录进日志, 数据才会写入

-ROOT- 和 .META.表
HBase中有两张特殊的Table, -ROOT- 和 .META.
.META. : 记录了用户表的Region信息, .META. 可以有多个region
-ROOT- : 记录了 .META. 表的Region信息, -ROOT- 只有一个region
Zookeeper中记录了 -ROOT- 表的location

Memstore与storefile
一个region由多个store组成, 每个store包含一个列族的所有数据
store包括位于把内存的memstore和位于硬盘的storefile
写操作先写入memstore, 当memstore中的数据量达到某个阈值, Hregionserver会启动flashcache进程写入storefile, 每次写入形成单独一个storefile
当storefile文件的数量增长到一定阈值后, 系统会进行合并, 在合并过程中会进行版本合并和删除工作, 形成更大的storefile
当storefile大小超过一定阈值后, 会把当前的region分割成两个, 并由Hmaster分配到相应的region服务器, 实现负载均衡
客户端检索数据时, 先在memstore找, 找不到在找storefile


Hbase vs Oracle
索引不通造成行为的差异
Hbase适合大量插入同时又有读的情况
Hbase的瓶颈在磁盘传送速度, Oracle的瓶颈在硬盘寻道时间
Hbase很适合寻找按照时间排序top N的场景

传统数据库的行式存储
数据存放在数据文件内
数据文件的基本组成单位: 块/页
块内结构: 块头, 数据区



运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-33744-1-1.html 上篇帖子: hive的基本概念和安装 下篇帖子: Hbase安装-单机安装
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表