设为首页 收藏本站
查看: 843|回复: 0

[经验分享] Hadoop 3.0.0-alpha2安装(二)

[复制链接]

尚未签到

发表于 2018-10-29 08:45:17 | 显示全部楼层 |阅读模式
由于博客文字限制,只能分开写了:  Hadoop 3.0.0-alpha2安装(一)链接:
  http://laowafang.blog.51cto.com/251518/1912342

5、FAQ
1、问题:本地库与当前操作系统的版本不一致:
  $ /data/hadoop/bin/hadoopchecknative -a    # 警告信息:
  2017-03-27 18:02:12,116 WARN util.NativeCodeLoader:Unable to load native-hadoop library for your platform... using builtin-javaclasses where applicable
  Native library checking:
  hadoop:  false
  zlib:    false
  zstd  :  false
  snappy:  false
  lz4:     false
  bzip2:   false
  openssl: false
  ISA-L:   false
  参看信息:
  (1)查看hadoop native的GLIBC支持的版本:
  # strings/data/hadoop/lib/native/libhadoop.so.1.0.0 |grep GLIBC
  GLIBC_2.2.5
  GLIBC_2.12
  GLIBC_2.7
  GLIBC_2.14
  GLIBC_2.6
  GLIBC_2.4
  GLIBC_2.3.4
  (2)查看本地linux的GLIBC版本:
  # strings /lib64/libc.so.6 | grep GLIBC
  GLIBC_2.2.5
  GLIBC_2.2.6
  GLIBC_2.3
  GLIBC_2.3.2
  GLIBC_2.3.3
  GLIBC_2.3.4
  GLIBC_2.4
  GLIBC_2.5
  GLIBC_2.6
  GLIBC_2.7
  GLIBC_2.8
  GLIBC_2.9
  GLIBC_2.10
  GLIBC_2.11
  GLIBC_2.12
  GLIBC_PRIVATE
  上面报错可见,在linux上没有GLIBC 2.14,因此报错,处理方式只能是将hadoop源码在本地linux上用本地c库来编译,这样在运行hadoop时就会用本地的c库。
  解决:第一种方法:
  # tar -jxvf glibc-2.14.tar.bz2
  # cd glibc-2.14
  # tar -jxvf../glibc-linuxthreads-2.5.tar.bz2
  # cd ..
  # export CFLAGS="-g -O2"
  # ./glibc-2.14/configure --prefix=/usr \
  --disable-profile --enable-add-ons \
  --with-headers=/usr/include \
  --with-binutils=/usr/bin \
  # make -j `grep processor /proc/cpuinfo |wc -l`
  # make install
  ### 注意:安装编译过程:
  (1)要将glibc-linuxthreads解压到glibc目录下。
  (2)不能在glibc当前目录下运行configure。
  (3)加上优化开关,export CFLAGS="-g -O2",否则会出现错误
  # /data/hadoop/bin/hadoopchecknative -a    # 核实成功
  2017-03-28 09:43:42,942 INFObzip2.Bzip2Factory: Successfully loaded & initialized native-bzip2 librarysystem-native
  2017-03-28 09:43:42,962 INFOzlib.ZlibFactory: Successfully loaded & initialized native-zlib library
  Native library checking:
  hadoop: true /data/hadoop-3.0.0-alpha2/lib/native/libhadoop.so.1.0.0
  zlib:   true /lib64/libz.so.1
  zstd  : false
  snappy: true /usr/lib64/libsnappy.so.1
  lz4:    true revision:10301
  bzip2:  true /lib64/libbz2.so.1
  openssl: true /usr/lib64/libcrypto.so
  ISA-L:   false libhadoop wasbuilt without ISA-L support
  2017-03-28 09:43:43,190 INFO util.ExitUtil:Exiting with status 1
  [root@master opt]# file/data/hadoop-3.0.0-alpha2/lib/native/libhadoop.so.1.0.0
  /data/hadoop-3.0.0-alpha2/lib/native/libhadoop.so.1.0.0:ELF 64-bit LSB shared object, x86-64, version 1 (SYSV), dynamically linked, notstripped
  ### 说明:以上红色字体暂没解决,查阅资料暂时不影响使用,有知者麻烦告知,谢谢。
  $./start-all.sh        # 再次启动信息
  WARNING: Attempting to start all ApacheHadoop daemons as hadoop in 10 seconds.
  WARNING: This is not a recommendedproduction deployment configuration.
  WARNING: Use CTRL-C to abort.
  Starting namenodes on [master]
  Starting datanodes
  Starting secondary namenodes [master]
  Starting resourcemanager
  Starting nodemanagers
  解决:第二种方法重新编译hadoop本地库   # 本人没有测试过,参考如下:
  http://zkread.com/article/1187940.html
  http://forevernull.com/category/%E9%97%AE%E9%A2%98%E8%A7%A3%E5%86%B3/
6、其他
6.1压缩收集
  目前在Hadoop中用得比较多的有lzo,gzip,snappy,bzip2这4种压缩格式,笔者根据实践经验介绍一下这4种压缩格式的优缺点和应用场景,以便大家在实践中根据实际情况选择不同的压缩格式。
  1、gzip压缩
  优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。
  缺点:不支持split。
  应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个gzip文件,运行mapreduce程序的时候通过多个gzip文件达到并发。hive程序,streaming程序,和java写的mapreduce程序完全和文本处理一样,压缩之后原来的程序不需要做任何修改。
  2、lzo压缩
  优点:压缩/解压速度也比较快,合理的压缩率;支持split,是hadoop中最流行的压缩格式;支持hadoop native库;可以在linux系统下安装lzop命令,使用方便。
  缺点:压缩率比gzip要低一些;hadoop本身不支持,需要安装;在应用中对lzo格式的文件需要做一些特殊处理(为了支持split需要建索引,还需要指定inputformat为lzo格式)。
  应用场景:一个很大的文本文件,压缩之后还大于200M以上的可以考虑,而且单个文件越大,lzo优点越越明显。
  3、snappy压缩
  优点:高速压缩速度和合理的压缩率;支持hadoop native库。
  缺点:不支持split;压缩率比gzip要低;hadoop本身不支持,需要安装;linux系统下没有对应的命令。
  应用场景:当mapreduce作业的map输出的数据比较大的时候,作为map到reduce的中间数据的压缩格式;或者作为一个mapreduce作业的输出和另外一个mapreduce作业的输入。
  4、bzip2压缩
  优点:支持split;具有很高的压缩率,比gzip压缩率都高;hadoop本身支持,但不支持native;在linux系统下自带bzip2命令,使用方便。
  缺点:压缩/解压速度慢;不支持native。
  应用场景:适合对速度要求不高,但需要较高的压缩率的时候,可以作为mapreduce作业的输出格式;或者输出之后的数据比较大,处理之后的数据需要压缩存档减少磁盘空间并且以后数据用得比较少的情况;或者对单个很大的文本文件想压缩减少存储空间,同时又需要支持split,而且兼容之前的应用程序(即应用程序不需要修改)的情况。
6.2清理
  在安装过程中会出现频繁重启测试配置文件内容,建议每次先关闭,清理日志,清理以下创建的文件:
  # mkdir -p/data/{hdfsname1,hdfsname2}/hdfs/name
  # mkdir -p/data/{hdfsdata1,hdfsdata2}/hdfs/data
  # rm -rf /data/hadoop/tmp
  ### 发现还有好多东西要搞,后续有时间继续完善,然后……不知道什么时候了^_^
刘政委 2017-04-01


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-627761-1-1.html 上篇帖子: Hadoop 3.0.0-alpha2安装(一) 下篇帖子: Hadoop分布式文件系统设计要点与架构
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表