设为首页 收藏本站
查看: 1379|回复: 0

[经验分享] Hadoop连载系列之六:Hadoop数据仓库工具Hive

[复制链接]

尚未签到

发表于 2018-10-31 09:43:16 | 显示全部楼层 |阅读模式
  1 关于Hive
  Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Hive提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉MapReduce的开发者开发自定义的mapper和reducer 来处理内建的mapper和reducer无法完成的复杂的分析工作。
  Hive和关系型数据库的区别
  可用下表进行概括:

  Hive
  RDBMS
  查询语言
  HQL
  SQL
  数据存储
  HDFS
  Raw Device or Local FS
  索引
  无
  有
  执行
  MapReduce
  Excutor
  执行延迟
  高
  低
  处理数据规模
  大
  小
  注解:
  1.  查询语言。由于 SQL 被广泛的应用在数据仓库中,因此,专门针对 Hive 的特性设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。
  2.  数据存储位置。Hive 是建立在Hadoop 之上的,所有 Hive 的数据都是存储在HDFS 中的。而数据库则可以将数据保存在块设备或者本地文件系统中。
  3.  数据格式。Hive 中没有定义专门的数据格式,数据格式可以由用户指定,用户定义数据格式需要指定三个属性:列分隔符(通常为空格、”\t”、”\x001″)、行分隔符(”\n”)以及读取文件数据的方法(Hive 中默认有三个文件格式 TextFile,SequenceFile 以及 RCFile)。由于在加载数据的过程中,不需要从用户数据格式到 Hive 定义的数据格式的转换,因此,Hive 在加载的过程中不会对数据本身进行任何修改,而只是将数据内容复制或者移动到相应的 HDFS 目录中。而在数据库中,不同的数据库有不同的存储引擎,定义了自己的数据格式。所有数据都会按照一定的组织存储,因此,数据库加载数据的过程会比较耗时。
  4.  数据更新。由于 Hive 是针对数据仓库应用设计的,而数据仓库的内容是读多写少的。因此,Hive 中不支持对数据的改写和添加,所有的数据都是在加载的时候中确定好的。而数据库中的数据通常是需要经常进行修改的,因此可以使用 INSERT INTO ...  VALUES 添加数据,使用 UPDATE... SET 修改数据。
  5.  索引。之前已经说过,Hive 在加载数据的过程中不会对数据进行任何处理,甚至不会对数据进行扫描,因此也没有对数据中的某些 Key 建立索引。Hive 要访问数据中满足条件的特定值时,需要暴力扫描整个数据,因此访问延迟较高。由于 MapReduce 的引入, Hive 可以并行访问数据,因此即使没有索引,对于大数据量的访问,Hive 仍然可以体现出优势。数据库中,通常会针对一个或者几个列建立索引,因此对于少量的特定条件的数据的访问,数据库可以有很高的效率,较低的延迟。由于数据的访问延迟较高,决定了 Hive 不适合在线数据查询。
  6.  执行。Hive 中大多数查询的执行是通过 Hadoop 提供的 MapReduce 来实现的(类似 select * from tbl 的查询不需要 MapReduce)。而数据库通常有自己的执行引擎。
  7.  执行延迟。之前提到,Hive 在查询数据的时候,由于没有索引,需要扫描整个表,因此延迟较高。另外一个导致 Hive 执行延迟高的因素是 MapReduce 框架。由于 MapReduce 本身具有较高的延迟,因此在利用 MapReduce 执行 Hive 查询时,也会有较高的延迟。相对的,数据库的执行延迟较低。当然,这个低是有条件的,即数据规模较小,当数据规模大到超过数据库的处理能力的时候,Hive 的并行计算显然能体现出优势。
  8.  可扩展性。由于 Hive 是建立在 Hadoop 之上的,因此 Hive 的可扩展性是和 Hadoop 的可扩展性是一致的(世界上最大的 Hadoop 集群在 Yahoo!,2009年的规模在4000 台节点左右)。而数据库由于 ACID 语义的严格限制,扩展行非常有限。目前最先进的并行数据库 Oracle 在理论上的扩展能力也只有 100 台左右。
  9. 数据规模。由于 Hive 建立在集群上并可以利用 MapReduce 进行并行计算,因此可以支持很大规模的数据;对应的,数据库可以支持的数据规模较小。
  2 设计架构
  Hive是基于Hadoop和MapReduce的,架构示意图如下,
DSC0000.jpg

  2.1 架构组成
  Hive架构包括如下组件:CLI(command line interface)、JDBC/ODBC、Thrift Server、WEB GUI、metastore和Driver(Complier、Optimizer和Executor)。这些组件大致可以分为两类:服务端组件、客户端组件。
  2.1.1 服务端组件
  Driver组件:该组件包括Complier、Optimizer和Executor,它的作用是将我们写的HiveQL(类SQL)语句进行解析、编译优化,生成执行计划,然后调用底层的mapreduce计算框架。
  Metastore组件:元数据服务组件,这个组件存储hive的元数据,hive的元数据存储在关系数据库里,hive支持的关系数据库有derby、mysql。元数据对于hive十分重要,因此hive支持把metastore服务独立出来,安装到远程的服务器集群里,从而解耦hive服务和metastore服务,保证hive运行的健壮性,这个方面的知识,我会在后面的metastore小节里做详细的讲解。
  Thrift服务:thrift是facebook开发的一个软件框架,它用来进行可扩展且跨语言的服务的开发,hive集成了该服务,能让不同的编程语言调用hive的接口。
  2.1.2 客户端组件
  CLI:command line interface,命令行接口。
  Thrift客户端:上面的架构图里没有写上Thrift客户端,但是hive架构的许多客户端接口是建立在thrift客户端之上,包括JDBC和ODBC接口。
  WEBGUI:hive客户端提供了一种通过网页的方式访问hive所提供的服务。这个接口对应hive的hwi组件(hive web interface),使用前要启动hwi服务。
  2.2 metastore组件
  Hive的metastore组件是hive元数据集中存放地。Metastore组件包括两个部分:metastore服务和后台数据的存储。后台数据存储的介质就是关系数据库,例如hive默认的嵌入式磁盘数据库derby,还有mysql数据库。Metastore服务是建立在后台数据存储介质之上,并且可以和hive服务进行交互的服务组件,默认情况下,metastore服务和hive服务是安装在一起的,运行在同一个进程当中。我也可以把metastore服务从hive服务里剥离出来,metastore独立安装在一个集群里,hive远程调用metastore服务,这样我们可以把元数据这一层放到防火墙之后,客户端访问hive服务,就可以连接到元数据这一层,从而提供了更好的管理性和安全保障。使用远程的metastore服务,可以让metastore服务和hive服务运行在不同的进程里,这样也保证了hive的稳定性,提升了hive服务的效率。
  以下为Hive的执行流程图:
DSC0001.jpg

  3 安装和配置(以MySQL为元数据库)
  Hive将元数据存储在RDBMS 中,一般常用的有MYSQL和DERBY,我们这里选用MySQL,并采用Hadoop系列博文所搭建的Hadoop集群。Hive原则上可以安装在集群上的任何一台机器上面,此处安装在namenode(楼主的NameNode为虚拟机集群的主机,性能最佳)上。
  3.1 下载安装
  从官网下载Hive的稳定版本hive-0.11.0-tar.gz(截止到博文发表之前),解压到/usr目录下,并重命名为hive
  tar zxvf hive-0.11.0-tar.gz ;mv hive-0.11.0/ /usr/hive
  3.2 设置好环境变量
  编辑/etc/profile,加入以下内容:
  # set hive path
  export HIVE_HOME=/usr/hive
  export PATH=$PATH:$HIVE_HOME/bin
  使生效:source /etc/profile
  3.3 配置MySQL存储metadata
  3.3.1 安装、配置好MySQL服务
  此处采用CentOS自带的MySQL服务。若是采用自行编译的版本,需要注意修改配置文件,允许远程登录。
  3.3.2 创建hive数据库
  登录MySQL,创建database: hive:
  mysql -u root -pmykey
  mysql> create database hive;
  3.3.3 修改hive配置文件hive-site.xml
  默认这个文件是不存在的,进入hive安装路径,在conf目录下,拷贝hive-default.xml.template得到hive-site.xml文件
  cp hive-default.xml.template hive-site.xml
  修改以下属性:
  
  javax.jdo.option.ConnectionURL
  jdbc:mysql://192.168.56.1:3306/hive?createDatabaseIfNotExist=true
  JDBC connect string for a JDBC metastore
  
  
  javax.jdo.option.ConnectionDriverName
  com.mysql.jdbc.Driver

  Driver>  
  
  javax.jdo.option.ConnectionUserName
  hive
  username to use against metastore database
  
  
  javax.jdo.option.ConnectionPassword
  hive
  password to use against metastore database
  
  注解:
  1. 新手修改这四个属性即可。
  2. javax.jdo.option.ConnectionURL表示使用的metastore是mysql,该mysql服务搭建在192.168.56.1这个节点上,存储元数据的数据库为hive。
  3. javax.jdo.option.ConnectionDriverName:hive中用java来开发与mysql进行交互时,需要用到一个关于mysql的connector,即MySQL的JDBC元数据驱动包。
  4. javax.jdo.option.ConnectionUserName:用来设置hive存放的元数据的数据库(这里是mysql数据库)的用户名称
  5. javax.jdo.option.ConnectionPassword:用户登录数据库的时候需要输入的密码,可自行修改
  3.3.4 复制MySQL的JDBC驱动包到Hive的lib目录下
  这里下载的版本是:mysql-connector-java-5.0.8-bin.jar
  3.3.5 创建hive用户并赋予权限
  mysql -u root -p

  mysql> create user hive@192.168.56.1>  mysql> grant all privileges on *.* to hive@192.168.56.1 with grant option;
  mysql> flush privileges;
  执行上述语句后就可以用hive用户登录来检验用户是否添加成功
  mysql -u hive -h 192.168.56.1 -p
  password:****(hive)
  3.4 启动运行
  重启MySQL:service mysqld restart
  启动hive:
  [root@rango conf]# hive
  Logging initialized using configuration in jar:file:/usr/hive/lib/hive-common-0.11.0.jar!/hive-log4j.properties
  Hive history file=/tmp/root/hive_job_log_root_18013@rango.fugue.com_201403181121_225607025.txt
  hive> show tables;
  OK
  Time taken: 3.755 seconds
  hive>
  3.5 验证hive
  1. 在hive上建立数据表
  hive> create table test (id int, name string);
  OK
  Time taken: 0.88 seconds
  2. 登录MySQL查看metadata信息
  mysql>use hive;
  mysql>show tables;
  +---------------------------+
  | Tables_in_hive            |
  +---------------------------+
  | BUCKETING_COLS            |
  | CDS                       |
  | COLUMNS_V2                |
  | DATABASE_PARAMS           |
  | DBS                       |
  | PARTITION_KEYS            |
  | SDS                       |
  | SD_PARAMS                 |
  | SEQUENCE_TABLE            |
  | SERDES                    |
  | SERDE_PARAMS              |
  | SKEWED_COL_NAMES          |
  | SKEWED_COL_VALUE_LOC_MAP  |
  | SKEWED_STRING_LIST        |
  | SKEWED_STRING_LIST_VALUES |
  | SKEWED_VALUES             |
  | SORT_COLS                 |
  | TABLE_PARAMS              |
  | TBLS                      |
  +---------------------------+
  19 rows in set (0.00 sec)
  配置完成。
  3.6 问题总结
  1. hive> show tables;
  出现了下面的问题:
FAILED: Error in metadata: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClientFAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask  FAILED: Error in metadata: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClientFAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask
  一般是mysql用户的权限不够,具体原因可通过以下模式来查看:
  hive -hiveconf hive.root.logger=DEBUG,console
  2. 启动hive出现log4j:ERROR Could not connect to remote log4j server at [localhost]. We will try again later.
  Log4j是Apache的一个开放源代码项目,通过使用Log4j,我们可以控制日志信息输送的目的地是控制台、文件、GUI组件,甚至是套接口服务器、NT的事件记录器、UNIX Syslog守护进程等。此处是因为没有先启动Hadoop和HBase,导致没法连接到log4j日志服务器,不影响正常使用。
  4 总结
  Hive是基于Hadoop和HDFS的数据仓库工具,同时Hive也可以和HBase集成,HBase可以进行快速查询,但是HBase不支持类SQL的语句,那么此时Hive可以给HBase提供sql语法解析的外壳,可以用类sql语句操作HBase数据库。
  ——Rango Chen


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-628801-1-1.html 上篇帖子: hadoop 命令手册 下篇帖子: hadoop技术在传统银行业务中的应用
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表