设为首页 收藏本站
查看: 1560|回复: 0

[经验分享] Hadoop文件存储的葵花宝典

[复制链接]

尚未签到

发表于 2018-10-29 10:23:17 | 显示全部楼层 |阅读模式
  文件存储分行存储和列存储,每个存储格式里面又分不同的类型,在实际的应用中如何去使用?怎样去使用?快来围观吧!
  文件存储格式,我们在什么时候去指定呢?比如在Hve和Ipala中去创建表的时候,我们除了指定列和分隔符,在它的命令行结尾有STORED AS参数,这个参数默认是文本格式,但是文本不适合所有的场景,那么在这里我们就可以改变文本的信息。
DSC0000.png

  那么到底我们应该选择哪些格式呢?每种格式都有什么样的特点呢?我们为什么要去选择这种格式呢?
  一、文本文件:
  文本文件是Hadoop里面最基本的文件类型,可以从任何编程语言进行读或写,兼容逗号和tab分隔的文件以及其它很多的应用。而且文本文件直接可读的,因为都是字符串,所以在Debug的时候非常有用。然而,数据到达一定规模,这种格式是很低效的:(1)文本文件把数值表示为string浪费了存储空间;(2)很难表示二进制的数据,比如图片,通常依靠其他技术,比如Base64编码
  所以文本文件格式总结起来就是:易操作,但性能低
  二、序列文件
  序列文件本质是基于key-value键值对的二进制容器格式,它比文本格式冗余更少,更高效,适合存储二进制数据,比如图片。而且它是Java专有格式并且跟Hadoop紧密结合。
  所以序列文件格式总结起来就是:性能好,但难操作
  三、Avro数据文件
  Avro数据文件是二进制编码,存储效率更好。它不仅可以在Hadoop生态系统得到广泛支持,还可以在Hadoop之外使用。它是长期存储重要数据的理想选择,可以通过多种语言读写。
  而且它内嵌schema文件,通过这个文件我们可以很轻松的像表一样去定义数据的模式,可以灵活制定字段及字段类型。Schema演化可以适应各种变化,比如当前指定一个Schema类型,将来增加了一些数据结构、删除了一些数据、类型发生了变更、长度发生了变更,都是可以应对的。
  所以Avro数据文件格式总结起来就是:极好的操作性和性能,是Hadoop通用存储的最佳选择。
  以上介绍的三种格式都是行存储,但是Hadoop里面还有一些列存储格式。典型的OLTP以行的形式来存储,就是以连续的行来存储到连续的块,当我们进行随机的寻值访问的时候,我们通常会去加一些条件,对于行存储而言可以迅速定义到块所在位置,然后提取行的数据。而列存储以列为单位进行存储,如果将列存储应用于OLTP我们要定义到特定行进行扫描的时候,它会扫描到所有的列。对于列存储应用到在线事务场景处理就是一个很恐怖的事情,列存储的意义在于应用于大数据分析场景,比如进行特征值的抽取,变量的筛选,通常在大数据场景应用中我们会大量的应用宽表,可能对于某一业务分析而言,我们只需要使用其中一个或几十个这样的列,那么就可去选择一些列进行扫描,不会扫描到全表。行存储与列存储并没有绝对的好坏之分,只是彼此适用的场景不一样。
DSC0001.png

  下面我们看一下列存储重要的存储方式:
  一、Parquet文件
  Parquet文件格式非常重要,在未来也将会被广泛的使用。我们把HDFS称作是大数据存储事实标准的话,那么Parquet文件就是文件存储格式的事实标准。目前spark已经把它作为默认的文件存储格式,可见它的重要性。最初由cloudera和twitter开发的开源列存储格式,在MapReduce、Hive、Pig、Impala、Spark、Crunch和其他项目中支持应用。它和Avro数据文件都有Schema元数据,区别只是Parquet文件是列存储,Avro数据文件是行存储。这里必须要强调的是Parquet文件在编码方面进行了一些额外优化,减少存储空间,增加了性能。
  所以Parquet文件总结起来就是:极好的操作性和性能,是基于列访问模式的最佳选择。
  文件存储格式,需要重点去把握和学习,尤其是每种存储格式优劣势,必须熟练掌握,才可以在使用中更好的去选择使用。另外,我们在平常的工作中也要多去和别人分享交流,这样才会更好的完善自己的知识架构,提升自己的技术水平,友情推荐“大数据cn”微信公众号,等你来交流!


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-627868-1-1.html 上篇帖子: Hadoop-Hello,World! 下篇帖子: Hadoop学习--伪分布式部署--day01
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表