设为首页 收藏本站
查看: 1286|回复: 0

[经验分享] Apache Hive入门3–Hive与HBase的整合

[复制链接]

尚未签到

发表于 2017-1-11 06:33:12 | 显示全部楼层 |阅读模式
  作者: H.E. | 您可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明 
网址: http://www.javabloger.com/article/apache-hadoop-hive-hbase-integration.html

  
开场白:
Hive与HBase的整合功能的实现是利用两者本身对外的API接口互相进行通信,相互通信主要是依靠hive_hbase-handler.jar工具类 (Hive Storage Handlers), 大致意思如图所示:
http://niaklq.bay.livefilestore.com/y1p0k32w2fi4k43d0uKbLdkCsYMad9JJA444Ss9lLAu3ABPv21dAEhooK_3IY_-XLpusyVIH7JyOPY76-ORy8IX2fhMZ2YYi8qA/hive-hbase-arch.jpg?psid=1
口水:
 对 hive_hbase-handler.jar 这个东东还有点兴趣,有空来磋磨一下。
一、2个注意事项:
1、需要的软件有 Hadoop、Hive、Hbase、Zookeeper,Hive与HBase的整合对Hive的版本有要求,所以不要下载.0.6.0以前的老版本,Hive.0.6.0的版本才支持与HBase对接,因此在Hive的lib目录下可以看见多了hive_hbase-handler.jar这个jar包,他是Hive扩展存储的Handler ,HBase 建议使用 0.20.6的版本,这次我没有启动HDFS的集群环境,本次所有测试环境都在一台机器上。
     
2、运行Hive时,也许会出现如下错误,表示你的JVM分配的空间不够,错误信息如下:
Invalid maximum heap size: -Xmx4096m
The specified size exceeds the maximum representable size.
Could not create the Java virtual machine.
解决方法:
/work/hive/bin/ext# vim util/execHiveCmd.sh 文件中第33行
修改,
HADOOP_HEAPSIZE=4096

HADOOP_HEAPSIZE=256
另外,在 /etc/profile/ 加入 export $HIVE_HOME=/work/hive
二、启动运行环境
1启动Hive
hive --auxpath /work/hive/lib/hive_hbase-handler.jar,/work/hive/lib/hbase-0.20.3.jar,/work/hive/lib/zookeeper-3.2.2.jar -hiveconf hbase.master=127.0.0.1:60000
加载 Hive需要的工具类,并且指向HBase的master服务器地址,我的HBase master服务器和Hive运行在同一台机器,所以我指向本地。
2启动HBase
/work/hbase/bin/hbase master start
3启动Zookeeper
/work/zookeeper/bin/zkServer.sh start
三、执行
在Hive中创建一张表,相互关联的表
CREATE TABLE hbase_table_1(key int, value string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val") TBLPROPERTIES ("hbase.table.name" = "xyz");
在运行一个在Hive中建表语句,并且将数据导入
建表
    CREATE TABLE pokes (foo INT, bar STRING);
数据导入
    LOAD DATA LOCAL INPATH '/work/hive/examples/files/kv1.txt' OVERWRITE INTO TABLE pokes;
在Hive与HBase关联的表中 插入一条数据
    INSERT OVERWRITE TABLE hbase_table_1 SELECT * FROM pokes WHERE foo=98;
运行成功后,如图所示:
http://public.bay.livefilestore.com/y1pHJQIdJi1VIB52Kd18sasaov_unmVqblN70oRSc7krIEaPHE_jIl-26X1nAlGmJOH3CLZs539iAcFsFYp_PblnA/hive-hbase.jpg?psid=1
插入数据时采用了MapReduce的策略算法,并且同时向HBase写入,如图所示:
http://niaklq.bay.livefilestore.com/y1pCkjCBrClVasd1Fd51Z-aU0Sj4QeS5ApvZQZR7M3DtldD_72l1IX9Sp09K8afzT_CJqNaXnxJ3ZeWMqS1QapVprHuifTq6n3j/Map-Reduce-INSERT.jpg?psid=1
在HBase shell中运行 scan 'xyz' 和describe "xyz" 命令,查看表结构,运行结果如图所示:
http://public.bay.livefilestore.com/y1p8KUXo_4g2PiFzfULzn3yfC5VD9n8g_QoP_Hn8pXr6obRzA6vEPa1Vk66bwx4WXk8W9Vsd7WMXsf7V8wlqtiHlQ/hive-hbase-1.jpg?psid=1
xyz是通过Hive在Hbase中创建的表,刚刚在Hive的建表语句中指定了映射的属性 "hbase.columns.mapping" = ":key,cf1:val" 和 在HBase中建表的名称 "hbase.table.name" = "xyz"
在hbase在运行put命令,插入一条记录
    put 'xyz','10001','cf1:val','www.javabloger.com'
在hive上运行查询语句,看看刚刚在hbase中插入的数据有没有同步过来,
    select * from hbase_table_1 WHERE key=10001;
如图所示:
http://public.bay.livefilestore.com/y1pJjI-f9ZM1rcz57xHfBU8it2nY-sgJeQPQ5TepAA7Q8do2AUYMECZ28aN0MflhjrK-hkXS2Hw_1FAi6xIk5x7Aw/hive-hbase-3.jpg?psid=1
最终的效果
    以上整合过程和操作步骤已经执行完毕,现在Hive中添加记录HBase中有记录添加,同样你在HBase中添加记录Hive中也会添加, 表示Hive与HBase整合成功,对海量级别的数据我们是不是可以在HBase写入,在Hive中查询 喃?因为HBase 不支持复杂的查询,但是HBase可以作为基于 key 获取一行或多行数据,或者扫描数据区间,以及过滤操作。而复杂的查询可以让Hive来完成,一个作为存储的入口(HBase),一个作为查询的入口(Hive)。如下图示。
    http://niaklq.bay.livefilestore.com/y1pIvjweuRWQDmuR4EMM2tY25wcDc5NGTcsKpo_9PGZGtSUqquFW2NKqevGhgmVBDIp4Fh_HKg-gyf3EdsKBkVZr3N3TXXa7axS/hive-hbase-4-last.jpg?psid=1
    
    呵呵,见笑了,以上只是我面片的观点。
先这样,稍后我将继续更新,感谢你的阅读。
 
相关文章:
 Apache Hive入门2 
 Apache Hive入门1
 HBase入门篇4 
 HBase入门篇3 
 HBase入门篇2 
 HBase入门篇
–end–
  3.  启动hive:
bin/hive --auxpath /home/hadoop/hive/hive-new-version/hive_hbase_lib/hive_hbase-handler.jar,/home/hadoop/hive/hive-new-version/hive_hbase_lib/hbase-0.20.4.jar,/home/hadoop/hive/hive-new-version/hive_hbase_lib/zookeeper-3.2.2.jar -hiveconf hbase.zookeeper.quorum=eb149
 
后两个jar包可以从hbase路径下获得,务必保证输入完全路径
4.  建表:
HBase表Mtime4有三个family:businfo,taginfo,userinfo
“:key,businfo:,taginfo:,userinfo:”

格式:a mapping entry must be either :key or of the form column-family-name:[column-name]

务必创建external的hive表,使用map类型对应hbase中的一个family,hbase中family的columnName为key,columnValue为value。

CREATE EXTERNAL TABLE hbase_table_6(key int, businfo map<string,string>, taginfo map<string,string>, userinfomap<string,string>)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,businfo:,taginfo:,userinfo:")
TBLPROPERTIES ("hbase.table.name" = "Mtime4");

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-326617-1-1.html 上篇帖子: apache 自带压力测试工具 windows下使用 下篇帖子: Single Sign-On with Apache and Active Directory – Part 1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表