设为首页 收藏本站
查看: 1737|回复: 0

[经验分享] Hadoop 压缩文件方式比较

[复制链接]

尚未签到

发表于 2018-11-1 08:06:41 | 显示全部楼层 |阅读模式
  对于Hadoop文件常用的几种压缩方法,我写了一个java程序进行比较。
  期望是,给出一个大文件(bigfile.txt) ,我们用各种方式压缩他们然后最终复制到HDFS中。
  代码很简单:就是构造codec的实例,然后让它来创建到HDFS的输出流
  


  • /*
  • */
  • package com.charles.hadoop.fs;

  • import java.io.BufferedInputStream;
  • import java.io.FileInputStream;
  • import java.io.InputStream;
  • import java.io.OutputStream;
  • import java.net.URI;

  • import org.apache.hadoop.conf.Configuration;
  • import org.apache.hadoop.fs.FileSystem;
  • import org.apache.hadoop.fs.Path;
  • import org.apache.hadoop.io.IOUtils;
  • import org.apache.hadoop.io.compress.CompressionCodec;
  • import org.apache.hadoop.io.compress.CompressionCodecFactory;
  • import org.apache.hadoop.io.compress.GzipCodec;
  • import org.apache.hadoop.util.ReflectionUtils;

  • /**
  • *
  • * Description:
  • *
  • * @author charles.wang
  • * @created May 26, 2012 3:23:21 PM
  • *
  • */
  • public class HadoopCodec {

  •     /**
  •      * @param args
  •      */
  •     public static void main(String[] args) throws Exception {
  •         // TODO Auto-generated method stub

  •         String inputFile = "bigfile.txt";

  •         String outputFolder = "hdfs://192.168.129.35:9000/user/hadoop-user/codec/";
  •         // String outputFile="bigfile.gz";

  •         // 读取hadoop文件系统的配置
  •         Configuration conf = new Configuration();
  •         conf.set("hadoop.job.ugi", "hadoop-user,hadoop-user");

  •         //测试各种压缩格式的效率
  •         //gzip
  •         long gzipTime = copyAndZipFile(conf, inputFile, outputFolder, "org.apache.hadoop.io.compress.GzipCodec", "gz");
  •         //bzip2
  •         long bzip2Time = copyAndZipFile(conf, inputFile, outputFolder, "org.apache.hadoop.io.compress.BZip2Codec", "bz2");
  •         //deflate
  •         long deflateTime = copyAndZipFile(conf, inputFile, outputFolder, "org.apache.hadoop.io.compress.DefaultCodec", "deflate");

  •         System.out.println("被压缩的文件名为: "+inputFile);
  •         System.out.println("使用gzip压缩,时间为: "+gzipTime+"毫秒!");
  •         System.out.println("使用bzip2压缩,时间为: "+bzip2Time+"毫秒!");
  •         System.out.println("使用deflate压缩,时间为: "+deflateTime+"毫秒!");
  •     }

  •     public static long copyAndZipFile(Configuration conf, String inputFile, String outputFolder, String codecClassName,
  •             String suffixName) throws Exception {
  •         long startTime = System.currentTimeMillis();

  •         // 因为本地文件系统是基于java.io包的,所以我们创建一个本地文件输入流
  •         InputStream in = new BufferedInputStream(new FileInputStream(inputFile));

  •         //去掉扩展名提取basename
  •         String baseName = inputFile.substring(0, inputFile.indexOf("."));
  •         //构造输出文件名,它是路径名+基本名+扩展名
  •         String outputFile = outputFolder + baseName + "."+suffixName;


  •         FileSystem fs = FileSystem.get(URI.create(outputFile), conf);

  •         // 创建一个编码解码器,通过反射机制根据传入的类名来动态生成其实例
  •         CompressionCodec codec = (CompressionCodec) ReflectionUtils.newInstance(Class.forName(codecClassName), conf);

  •         // 创建一个指向HDFS目标文件的压缩文件输出流
  •         OutputStream out = codec.createOutputStream(fs.create(new Path(outputFile)));
  •         // 用IOUtils工具将文件从本地文件系统复制到HDFS目标文件中

  •         try {
  •             IOUtils.copyBytes(in, out, conf);

  •         } finally {
  •             IOUtils.closeStream(in);
  •             IOUtils.closeStream(out);
  •         }

  •         long endTime = System.currentTimeMillis();

  •         return endTime - startTime;
  •     }

  • }
  

  最终显示结果为:
  


  • 被压缩的文件名为: bigfile.txt
  • 使用gzip压缩,时间为: 11807毫秒!
  • 使用bzip2压缩,时间为: 44982毫秒!
  • 使用deflate压缩,时间为: 3696毫秒!
  

  同时我们查看HDFS文件目录,可以证实,这几个文件的确存在:
DSC0000.png

  分析结果:
  我们可以从性能和压缩比率2个方面来进行对比:
  性能:一目了然 deflate>bzip2>gzip, 而且gzip的性能差好大一截。
  压缩比
  我们的原文件大小为114,576,640 字节
DSC0001.png

  gzip 压缩比率为:9513416/114576640=8.3%,bzip2 压缩比率为5006568/114576640=4.37%,deflate压缩比率为9513404/114576640=8.3%
  所以压缩比: bzip2>deflate=gzip
  综上所述:压缩效果最好的是bzip2,压缩速度最快的是deflate



运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-629137-1-1.html 上篇帖子: Hadoop 用FileStatus类来查看HDFS中文件或目录的元信息 下篇帖子: Hadoop (HDFS)分布式文件系统基本操作
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表