设为首页 收藏本站
查看: 1053|回复: 0

[经验分享] hadoop2.0 lzo压缩的安装和配置

[复制链接]

尚未签到

发表于 2018-10-31 08:23:09 | 显示全部楼层 |阅读模式
  lzo压缩格式有很快的压缩/解压速度和合理的压缩率,并且支持分块(split),所以lzo是目前在hadoop中最流行的压缩格式。hadoop中的lzo不是自带的,如果要支持lzo,需要另外安装。本文介绍了在hadoop2.0上安装和配置lzo,同样也适用于hadoop1.0。
1 安装linux的lzo库
  需要在集群的每一个节点都安装lzo库,假定都64位的机器。
  在http://rpm.pbone.net/index.php3/stat/4/idpl/12088286/dir/redhat_el_5/com/lzo2-2.02-3.el5.rf.x86_64.rpm.html下载rpm包lzo2-2.02-3.el5.rf.x86_64.rpm 并安装
sudo rpm -ivh lzo2-2.02-3.el5.rf.x86_64.rpm  在http://rpm.pbone.net/index.php3/stat/4/idpl/18007725/dir/redhat_el_5/com/lzo-devel-2.06-1.el5.rf.x86_64.rpm.html下载rpm包lzo-devel-2.06-1.el5.rf.x86_64.rpm并安装
sudo rpm -ivh lzo-devel-2.06-1.el5.rf.x86_64.rpm  在http://pkgs.repoforge.org/lzop/下载rpm包lzop-1.03-1.el5.rf.x86_64.rpm并安装
sudo rpm -ivh lzop-1.03-1.el5.rf.x86_64.rpm  lzop是一个linux下的lzo压缩命令行工具,方便大家在linux下压缩lzo文件,不是必需的。
2 安装hadoop-lzo包
  可以下载kevinweil的hadoop-lzo项目,下载地址:https://github.com/kevinweil/hadoop-lzo
  也可以下载twitter的hadoop-lzo项目,下载地址:https://github.com/twitter/hadoop-lzo/
  twitter的一直在更新和维护,建议下载twitter的
wget https://github.com/twitter/hadoop-lzo/archive/master.zip --no-check-certificate  -O master.zip  下载之后解压
upzip master.zip  解压之后是一个目录hadoop-lzo-master
  可以修改目录hadoop-lzo-master里的pom.xml,把hadoop.current.version的属性从hadoop2.1.0-beta改为Hadoop 2.2.0(这个不修改也没有问题,不过还是建议改一下)
  64位环境的需要设置两个环境变量:
export CFLAGS=-m64  
export CXXFLAGS=-m64
  然后就可以用maven编译了
cd hadoop-lzo-master  
mvn clean package -Dmaven.test.skip=true
  注意:如果前面的linux lzo库没有安装在标准目录下,在用maven编译前需要设置C_INCLUDE_PATH和LIBRARY_PATH这两个环境变量,指出lzo的头文件和库文件在哪个目录,如:
export C_INCLUDE_PATH=/usr/local/lzo-2.06/include  
export LIBRARY_PATH=/usr/local/lzo-2.06/lib
  编译好之后把编译出来的本地库和jar包hadoop-lzo-0.4.18-SNAPSHOT.jar拷贝到相应的目录,并拷贝到集群的每一个节点上的相应的目录。
cp target/native/Linux-amd64-64/* $HADOOP_HOME/lib/native/  
cp target/hadoop-lzo-0.4.20-SNAPSHOT.jar  $HADOOP_HOME/share/hadoop/mapreduce/lib/
3 修改hadoop的配置文件core-site.xml
  修改/增加以下2个参数:
  io.compression.codecs
  org.apache.hadoop.io.compress.GzipCodec,
  org.apache.hadoop.io.compress.DefaultCodec,
  org.apache.hadoop.io.compress.BZip2Codec,
  com.hadoop.compression.lzo.LzoCodec,
  com.hadoop.compression.lzo.LzopCodec
  
  

  

  io.compression.codec.lzo.class
  com.hadoop.compression.lzo.LzoCodec
  

4 hadoop客户机lzo的安装和配置
  和hadoop服务器的机器上的安装和配置一样。
5 测试
  可以运行以下hdfs命令看是否成功
$HADOOP_HOME/bin/hdfs dfs -text /path/to/file.lzo  运行一个以lzo文件为输入的作业是否运行成功
6 实战tips
  在hadoop2.0中,把maven编译好的jar包hadoop-lzo-0.4.20-SNAPSHOT.jar拷贝到 $HADOOP_HOME/share/hadoop/mapreduce/lib/或者$HADOOP_HOME/share/hadoop/mapreduce/目录下,不需要重启hadoop集群。
参考资料:
  https://github.com/twitter/hadoop-lzo
  https://github.com/kevinweil/hadoop-lzo
  http://www.cloudera.com/blog/2009/11/17/hadoop-at-twitter-part-1-splittable-lzo-compression/
  http://code.google.com/p/hadoop-gpl-compression



运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-628700-1-1.html 上篇帖子: gcc编译和运行hadoop c api程序 下篇帖子: hadoop2.0 snappy 压缩的安装和配置
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表