Hadoop HBase

色婆ijqwj · 发表于 2018-10-29 11:42:03

　　一、概述：
　　1、定义：HBase是Google Bigtable的开源山寨版本。是建立的HDFS之上，提供高可靠性、高性能、列存储、可伸缩、实时、随机读写的数据库系统。
　　它介于nosql和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。与hadoop一样，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。
　　2、特点：
　　HBase中的表一般有这样的特点：
　　（1）、大：一个表可以有上亿行，上百万列
　　（2）、面向列：面向列(族)的存储和权限控制，列(族)独立检索。
　　（3）、稀疏：对于为空(null)的列，并不占用存储空间，因此，表可以设计的非常稀疏。
　　二、hbase命令行：
　　1、进入hbase命令行  ./hbase shell
　　2、显示hbase中的表 list
　　3、创建user表，包含info、data两个列族
　　create 'user', {NAME => 'info', VERSIONS => '3'},{NAME => 'data'}
　　4、向user表中插入信息：
　　（1）、插入row key为rk0001，列族info中添加name列标示符，值为zhangsan
　　put 'user', 'rk0001', 'info:name', 'zhangsan'
　　（2）、插入row key为rk0001，列族info中添加gender列标示符，值为female
　　put 'user', 'rk0001', 'info:gender', 'female'
　　（3）、插入row key为rk0001，列族info中添加age列标示符，值为20
　　put 'user', 'rk0001', 'info:age', 20
　　（4）、插入row key为rk0001，列族data中添加pic列标示符，值为picture
　　put 'user', 'rk0001', 'data:pic', 'picture'
　　5、get获取数据：
　　（1）、获取user表中row key为rk0001的所有信息
　　get 'user', 'rk0001'
　　（2）、获取user表中row key为rk0001，info列族的所有信息
　　get 'user', 'rk0001', 'info'
　　（3）、获取user表中row key为rk0001，info列族的name、age列标示符的信息
　　get 'user', 'rk0001', 'info:name', 'info:age'
　　（4）、获取user表中row key为rk0001，info、data列族的信息
　　get 'user', 'rk0001', 'info', 'data'
　　get 'user', 'rk0001', {COLUMN => ['info', 'data']}
　　（5）、获取user表中row key为rk0001，列族为info，版本号最新5个的信息
　　get 'user', 'rk0001', {COLUMN => 'info:name', VERSIONS => 5}
　　6、scan获取数据：
　　（1）、查询user表中的所有信息
　　scan 'user'
　　（2）、查询user表中row key以rk字符开头的
　　scan 'user',{FILTER=>"PrefixFilter('rk')"}
　　（3）、查询user表中列族为info，rk范围是[rk0001, rk0003)的数据
　　scan 'people', {COLUMNS => 'info', STARTROW => 'rk0001', ENDROW => 'rk0003'}
　　（4）、查询user表中列族为info和data且列标示符中含有a字符的信息
　　scan 'user', {COLUMNS => ['info', 'data'], FILTER => "(QualifierFilter(=,'substring:a'))"}
　　（5）、查询user表中指定范围的数据
　　scan 'user', {TIMERANGE => [1392368783980, 1392380169184]}
　　7、删除数据
　　（1）、删除user表row key为rk0001，列标示符为info:name的数据
　　delete 'user', 'rk0001', 'info:name'
　　（2）、删除user表row key为rk0001，列标示符为info:name，timestamp为1392383705316的数据
　　delete 'user', 'rk0001', 'info:name', 1392383705316
　　8、删除表
　　disable 'user'
　　drop 'user'
　　三、HBase的java api：
　　import java.util.List;
　　import org.apache.hadoop.conf.Configuration;
　　import org.apache.hadoop.hbase.Cell;
　　import org.apache.hadoop.hbase.HBaseConfiguration;
　　import org.apache.hadoop.hbase.HColumnDescriptor;
　　import org.apache.hadoop.hbase.HTableDescriptor;
　　import org.apache.hadoop.hbase.KeyValue;
　　import org.apache.hadoop.hbase.TableName;
　　import org.apache.hadoop.hbase.client.Delete;
　　import org.apache.hadoop.hbase.client.Get;
　　import org.apache.hadoop.hbase.client.HBaseAdmin;
　　import org.apache.hadoop.hbase.client.HTable;
　　import org.apache.hadoop.hbase.client.Put;
　　import org.apache.hadoop.hbase.client.Result;
　　import org.apache.hadoop.hbase.client.ResultScanner;
　　import org.apache.hadoop.hbase.client.Scan;
　　import org.apache.hadoop.hbase.filter.BinaryComparator;
　　import org.apache.hadoop.hbase.filter.BinaryPrefixComparator;
　　import org.apache.hadoop.hbase.filter.ByteArrayComparable;
　　import org.apache.hadoop.hbase.filter.ColumnPrefixFilter;
　　import org.apache.hadoop.hbase.filter.CompareFilter.CompareOp;
　　import org.apache.hadoop.hbase.filter.FamilyFilter;
　　import org.apache.hadoop.hbase.filter.Filter;
　　import org.apache.hadoop.hbase.filter.MultipleColumnPrefixFilter;
　　import org.apache.hadoop.hbase.filter.PrefixFilter;
　　import org.apache.hadoop.hbase.filter.QualifierFilter;
　　import org.apache.hadoop.hbase.filter.RegexStringComparator;
　　import org.apache.hadoop.hbase.filter.RowFilter;
　　import org.apache.hadoop.hbase.filter.SingleColumnValueFilter;
　　import org.apache.hadoop.hbase.filter.SubstringComparator;
　　import org.apache.hadoop.hbase.master.TableNamespaceManager;
　　import org.apache.hadoop.hbase.util.Bytes;
　　import org.junit.Before;
　　import org.junit.Test;

　　public>　　private Configuration conf = null;
　　@Before
　　public void init(){
　　conf = HBaseConfiguration.create();
　　conf.set("hbase.zookeeper.quorum", "node1,node2,node3");
　　}
　　@Test
　　public void testDrop() throws Exception{
　　HBaseAdmin admin = new HBaseAdmin(conf);
　　admin.disableTable("account");
　　admin.deleteTable("account");
　　admin.close();
　　}
　　@Test
　　public void testPut() throws Exception{
　　HTable table = new HTable(conf, "person_info");
　　Put p = new Put(Bytes.toBytes("person_rk_bj_zhang_000002"));
　　p.add("base_info".getBytes(), "name".getBytes(), "zhangwuji".getBytes());
　　table.put(p);
　　table.close();
　　}
　　@Test
　　public void testGet() throws Exception{
　　HTable table = new HTable(conf, "person_info");
　　Get get = new Get(Bytes.toBytes("person_rk_bj_zhang_000001"));
　　get.setMaxVersions(5);
　　Result result = table.get(get);
　　List cells = result.listCells();
　　//result.getValue(family, qualifier);  可以从result中直接取出一个特定的value
　　//遍历出result中所有的键值对
　　for(KeyValue kv : result.list()){
　　String family = new String(kv.getFamily());
　　System.out.println(family);
　　String qualifier = new String(kv.getQualifier());
　　System.out.println(qualifier);
　　System.out.println(new String(kv.getValue()));
　　}
　　table.close();
　　}
　　/**
　　* 多种过滤条件的使用方法
　　* @throws Exception
　　*/
　　@Test
　　public void testScan() throws Exception{
　　HTable table = new HTable(conf, "person_info".getBytes());
　　Scan scan = new Scan(Bytes.toBytes("person_rk_bj_zhang_000001"), Bytes.toBytes("person_rk_bj_zhang_000002"));
　　//前缀过滤器----针对行键
　　Filter filter = new PrefixFilter(Bytes.toBytes("rk"));
　　//行过滤器
　　ByteArrayComparable rowComparator = new BinaryComparator(Bytes.toBytes("person_rk_bj_zhang_000001"));
　　RowFilter rf = new RowFilter(CompareOp.LESS_OR_EQUAL, rowComparator);
　　/**
　　* 假设rowkey格式为：创建日期_发布日期_ID_TITLE
　　* 目标：查找  发布日期  为  2014-12-21  的数据
　　*/
　　rf = new RowFilter(CompareOp.EQUAL , new SubstringComparator("_2014-12-21_"));
　　//单值过滤器 1 完整匹配字节数组
　　new SingleColumnValueFilter("base_info".getBytes(), "name".getBytes(), CompareOp.EQUAL, "zhangsan".getBytes());
　　//单值过滤器2 匹配正则表达式
　　ByteArrayComparable comparator = new RegexStringComparator("zhang.");
　　new SingleColumnValueFilter("info".getBytes(), "NAME".getBytes(), CompareOp.EQUAL, comparator);
　　//单值过滤器2 匹配是否包含子串,大小写不敏感
　　comparator = new SubstringComparator("wu");
　　new SingleColumnValueFilter("info".getBytes(), "NAME".getBytes(), CompareOp.EQUAL, comparator);
　　//键值对元数据过滤-----family过滤----字节数组完整匹配
　　FamilyFilter ff = new FamilyFilter(
　　CompareOp.EQUAL ,
　　new BinaryComparator(Bytes.toBytes("base_info")) //表中不存在inf列族，过滤结果为空
　　);
　　//键值对元数据过滤-----family过滤----字节数组前缀匹配
　　ff = new FamilyFilter(
　　CompareOp.EQUAL ,
　　new BinaryPrefixComparator(Bytes.toBytes("inf")) //表中存在以inf打头的列族info，过滤结果为该列族所有行
　　);
　　//键值对元数据过滤-----qualifier过滤----字节数组完整匹配
　　filter = new QualifierFilter(
　　CompareOp.EQUAL ,
　　new BinaryComparator(Bytes.toBytes("na")) //表中不存在na列，过滤结果为空
　　);
　　filter = new QualifierFilter(
　　CompareOp.EQUAL ,
　　new BinaryPrefixComparator(Bytes.toBytes("na")) //表中存在以na打头的列name，过滤结果为所有行的该列数据
　　);
　　//基于列名(即Qualifier)前缀过滤数据的ColumnPrefixFilter
　　filter = new ColumnPrefixFilter("na".getBytes());
　　//基于列名(即Qualifier)多个前缀过滤数据的MultipleColumnPrefixFilter
　　byte[][] prefixes = new byte[][] {Bytes.toBytes("na"), Bytes.toBytes("me")};
　　filter = new MultipleColumnPrefixFilter(prefixes);
　　//为查询设置过滤条件
　　scan.setFilter(filter);
　　scan.addFamily(Bytes.toBytes("base_info"));
　　ResultScanner scanner = table.getScanner(scan);
　　for(Result r : scanner){
　　/**
　　for(KeyValue kv : r.list()){
　　String family = new String(kv.getFamily());
　　System.out.println(family);
　　String qualifier = new String(kv.getQualifier());
　　System.out.println(qualifier);
　　System.out.println(new String(kv.getValue()));
　　}
　　*/
　　//直接从result中取到某个特定的value
　　byte[] value = r.getValue(Bytes.toBytes("base_info"), Bytes.toBytes("name"));
　　System.out.println(new String(value));
　　}
　　table.close();
　　}
　　@Test
　　public void testDel() throws Exception{
　　HTable table = new HTable(conf, "user");
　　Delete del = new Delete(Bytes.toBytes("rk0001"));
　　del.deleteColumn(Bytes.toBytes("data"), Bytes.toBytes("pic"));
　　table.delete(del);
　　table.close();
　　}
　　public static void main(String[] args) throws Exception {
　　Configuration conf = HBaseConfiguration.create();
　　//conf.set("hbase.zookeeper.quorum", "weekend05:2181,weekend06:2181,weekend07:2181");
　　HBaseAdmin admin = new HBaseAdmin(conf);
　　TableName tableName = TableName.valueOf("person_info");
　　HTableDescriptor td = new HTableDescriptor(tableName);
　　HColumnDescriptor cd = new HColumnDescriptor("base_info");
　　cd.setMaxVersions(10);
　　td.addFamily(cd);
　　admin.createTable(td);
　　admin.close();
　　}
　　}
　　

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] Hadoop HBase

浏览过的版块

扫码加入运维网微信交流群