设为首页 收藏本站
查看: 1315|回复: 0

[经验分享] Spark 中关于Parquet的应用与性能初步测试

[复制链接]

尚未签到

发表于 2019-1-30 13:37:20 | 显示全部楼层 |阅读模式
Spark 中关于Parquet的应用
  

Parquet简介
  
  Parquet是面向分析型业务的列式存储格式,由TwitterCloudera合作开发,20155月从Apache的孵化器里毕业成为Apache顶级项目
  http://parquet.apache.org/
Spark关于Parquet的支持
  这里我们使用的版本为spark2.0.1,是2016103日发布的最新版本。
  Spark可以很好的使用和生成Parquet 文件。下面的截图来自官方文档。
  

  
上图的例子中spark读取了一个位于examples/src/main/resources/users.parquet文件夹下的Parquet文件,并对数据进行了筛选后保存在了namesAndFavColors.parquet文件夹中,注意一下,官方文档路径取名加了.parquet,可能会被误解成是一个文件,其实是文件夹,这里自己试一下就可以证实。
Spark也支持将jdbc的数据转换成Parquet文件,下面的例子我们将SQLserver中的测试表1转换成Parquet文件。代码如下

生成好了的文件如下图所示,这里的实验环境为Windows,spark local模式,可以看到,文件名格式为*.snappy.parquet,这里的snappy表示的是压缩的方式,当然,这个压缩方式也是有很多种选择的,不过spark在这里选择了用snappy的压缩方式压缩成parquet文件作为默认策略。


我们看下测试表1在SQLserver中的信息,如下图所示:


可以看到这是一张7000w级别的表,表大小为6.5G,压缩过后的大小为768M,压缩后的大小为原文件大小的11%,节约了89%的空间。整个压缩时间耗时约11min,对于大数据平台来说,存储空间也是很重要的资源,而且对于网络传输有很大提升,在分布式计算中,网络传输有时会成为性能瓶颈。
我们再用另外一张测试表2做实验

这是一张2.5亿级别的表,表大小为9G,压缩后的大小为3.99G,节约了56%的空间,耗时约17min这是因为列存储格式文件大小不仅和行数有关,也和具体数据有关,不同的数据会有不同的压缩率。

Spark Sql支持直接在sql语句中读取Parquet文件,如下图所示

注意,这个语法是spark2.0开始才支持的新特性,利用这个特性,我们可以跳过建表这个过程直接读取文件的数据。


性能相关
  下面我们介绍一下性能。
  我们使用三个场景来测试Parquet的性能,这里我们并没有直接去取parquet文件,而是用createOrReplaceTempView方法将其创建为一个view。测试结果如下。
  
  SELECT YEAR(LOGOUT_DT) YR , MONTH(LOGOUT_DT) MTH,Modename,sum(WinCount+LoseCount+DrawCount) GameCount,sum(GameTime) GameTime,sum(GameTime) / sum(WinCount+LoseCount+DrawCount) Avg_GameTime FROM 测试表1 WHERE LOGOUT_DT BETWEEN '2015-01-01' AND '2016-01-01' GROUP BY YEAR(LOGOUT_DT) ,MONTH(LOGOUT_DT) ,Modename limit 1000;
  
  
  我们再看一下一个对比试验:
  Phoenix(poc环境,10台阿里云,集群环境)
  110s
  spark local(8G,4核,i3-4170,单机模式)
  52s
  spark 3node(8G,4核,i3-4170,集群环境)
  12s
  spark 5node (8G,4核,i3-4170,集群环境)
  12s
  hive 普通存储5node (8G,4核,i3-4170,集群环境)
  133s
  hive 列存储5node(parquet)(8G,4核,i3-4170,集群环境)
  43s
  
  Parquet不仅可以提高spark的查询速度,也可以提高hive的查询速度
  集群的计算速度大于单机的计算速度(机器配置相同)
  增加计算节点不一定会提高计算速度
  





运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-669669-1-1.html 上篇帖子: [大数据项目] 下篇帖子: Spark的枚举类型实例!scala的枚举。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表