设为首页 收藏本站
查看: 741|回复: 0

[经验分享] 学习hadoop 出现的问题,以及解决方案

[复制链接]

尚未签到

发表于 2016-12-11 06:23:15 | 显示全部楼层 |阅读模式
  1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out
  Answer:
  程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。
  修改办法:
  修改2个文件。
  /etc/security/limits.conf
  vi /etc/security/limits.conf
  加上:
  * soft nofile 102400
  * hard nofile 409600
  $cd /etc/pam.d/
  $sudo vi login
  添加session    required     /lib/security/pam_limits.so
  2:Too many fetch-failures
  Answer:
  出现这个问题主要是结点间的连通不够全面。
  1) 检查 、/etc/hosts
  要求本机ip 对应 服务器名
  要求要包含所有的服务器ip + 服务器名
  2) 检查 .ssh/authorized_keys
  要求包含所有服务器(包括其自身)的public key
  3:处理速度特别的慢 出现map很快 但是reduce很慢 而且反复出现 reduce=0% 
  Answer:
  结合第二点,然后
  修改 conf/hadoop-env.sh 中的export HADOOP_HEAPSIZE=4000 
  4:能够启动datanode,但无法访问,也无法结束的错误
  在重新格式化一个新的分布式文件时,需要将你NameNode上所配置的dfs.name.dir这一namenode用来存放NameNode 持久存储名字空间及事务日志的本地文件系统路径删除,同时将各DataNode上的dfs.data.dir的路径 DataNode 存放块数据的本地文件系统路径的目录也删除。如本此配置就是在NameNode上删除/home/hadoop/NameData,在DataNode上删除/home/hadoop/DataNode1和/home/hadoop/DataNode2。这是因为Hadoop在格式化一个新的分布式文件系统时,每个存储的名字空间都对应了建立时间的那个版本(可以查看/home/hadoop /NameData/current目录下的VERSION文件,上面记录了版本信息),在重新格式化新的分布式系统文件时,最好先删除NameData 目录。必须删除各DataNode的dfs.data.dir。这样才可以使namedode和datanode记录的信息版本对应。
  注意:删除是个很危险的动作,不能确认的情况下不能删除!!做好删除的文件等通通备份!!
  5:java.io.IOException: Could not obtain block: blk_194219614024901469_1100 file=/user/hive/warehouse/src_20090724_log/src_20090724_log
  出现这种情况大多是结点断了,没有连接上。
  6:java.lang.OutOfMemoryError: Java heap space
  出现这种异常,明显是jvm内存不够得原因,要修改所有的datanode的jvm内存大小。
  Java -Xms1024m -Xmx4096m
  一般jvm的最大内存使用应该为总内存大小的一半,我们使用的8G内存,所以设置为4096m,这一值可能依旧不是最优的值。(其实对于最好设置为真实物理内存大小的0.8)
  7:出现map%,但是呢reduce到98%左右的时候呢,就直接进failedjobs了
  解决办法:
  检查mapred.map.tasks是不是设置的太多了,设置太多的话会导致处理大量的小文件
  检查mapred.reduce.parallel.copies是否设置合适。
  8:
  系统根目录下的/tmp文件夹是不可以删除的
  否则bin/hadoop jps
  会出现异常:
  Exception in thread "main" java.lang.NullPointerException  at sun.jvmstat.perfdata.monitor.protocol.local.LocalVmManager.activeVms(LocalVmManager.java:127)
  at sun.jvmstat.perfdata.monitor.protocol.local.MonitoredHostProvider.activeVms(MonitoredHostProvider.java:133)
  at sun.tools.jps.Jps.main(Jps.java:45)
  同时
  bin/hive
  Unable to create log directory /tmp/hadoopuser
  2:Too many fetch-failures
  Answer:
  出现这个问题主要是结点间的连通不够全面。
  1) 检查 、/etc/hosts
  要求本机ip 对应 服务器名
  要求要包含所有的服务器ip + 服务器名
  2) 检查 .ssh/authorized_keys
  要求包含所有服务器(包括其自身)的public key
  3:处理速度特别的慢 出现map很快 但是reduce很慢 而且反复出现 reduce=0% 
  Answer:
  结合第二点,然后
  修改 conf/hadoop-env.sh 中的export HADOOP_HEAPSIZE=4000 
  4:能够启动datanode,但无法访问,也无法结束的错误
  在重新格式化一个新的分布式文件时,需要将你NameNode上所配置的dfs.name.dir这一namenode用来存放NameNode 持久存储名字空间及事务日志的本地文件系统路径删除,同时将各DataNode上的dfs.data.dir的路径 DataNode 存放块数据的本地文件系统路径的目录也删除。如本此配置就是在NameNode上删除/home/hadoop/NameData,在DataNode上删除/home/hadoop/DataNode1和/home/hadoop/DataNode2。这是因为Hadoop在格式化一个新的分布式文件系统时,每个存储的名字空间都对应了建立时间的那个版本(可以查看/home/hadoop /NameData/current目录下的VERSION文件,上面记录了版本信息),在重新格式化新的分布式系统文件时,最好先删除NameData 目录。必须删除各DataNode的dfs.data.dir。这样才可以使namedode和datanode记录的信息版本对应。
  注意:删除是个很危险的动作,不能确认的情况下不能删除!!做好删除的文件等通通备份!!
  5:java.io.IOException: Could not obtain block: blk_194219614024901469_1100 file=/user/hive/warehouse/src_20090724_log/src_20090724_log
  出现这种情况大多是结点断了,没有连接上。
  6:java.lang.OutOfMemoryError: Java heap space
  出现这种异常,明显是jvm内存不够得原因,要修改所有的datanode的jvm内存大小。
  Java -Xms1024m -Xmx4096m
  一般jvm的最大内存使用应该为总内存大小的一半,我们使用的8G内存,所以设置为4096m,这一值可能依旧不是最优的值。(其实对于最好设置为真实物理内存大小的0.8)
  7:出现map%,但是呢reduce到98%左右的时候呢,就直接进failedjobs了
  解决办法:
  检查mapred.map.tasks是不是设置的太多了,设置太多的话会导致处理大量的小文件
  检查mapred.reduce.parallel.copies是否设置合适。
  8:
  系统根目录下的/tmp文件夹是不可以删除的
  否则bin/hadoop jps
  会出现异常:
  Exception in thread "main" java.lang.NullPointerException  at sun.jvmstat.perfdata.monitor.protocol.local.LocalVmManager.activeVms(LocalVmManager.java:127)
  at sun.jvmstat.perfdata.monitor.protocol.local.MonitoredHostProvider.activeVms(MonitoredHostProvider.java:133)
  at sun.tools.jps.Jps.main(Jps.java:45)
  同时
  bin/hive
  Unable to create log directory /tmp/hadoopuser
  2:Too many fetch-failures
  Answer:
  出现这个问题主要是结点间的连通不够全面。
  1) 检查 、/etc/hosts
  要求本机ip 对应 服务器名
  要求要包含所有的服务器ip + 服务器名
  2) 检查 .ssh/authorized_keys
  要求包含所有服务器(包括其自身)的public key
  3:处理速度特别的慢 出现map很快 但是reduce很慢 而且反复出现 reduce=0% 
  Answer:
  结合第二点,然后
  修改 conf/hadoop-env.sh 中的export HADOOP_HEAPSIZE=4000 
  4:能够启动datanode,但无法访问,也无法结束的错误
  在重新格式化一个新的分布式文件时,需要将你NameNode上所配置的dfs.name.dir这一namenode用来存放NameNode 持久存储名字空间及事务日志的本地文件系统路径删除,同时将各DataNode上的dfs.data.dir的路径 DataNode 存放块数据的本地文件系统路径的目录也删除。如本此配置就是在NameNode上删除/home/hadoop/NameData,在DataNode上删除/home/hadoop/DataNode1和/home/hadoop/DataNode2。这是因为Hadoop在格式化一个新的分布式文件系统时,每个存储的名字空间都对应了建立时间的那个版本(可以查看/home/hadoop /NameData/current目录下的VERSION文件,上面记录了版本信息),在重新格式化新的分布式系统文件时,最好先删除NameData 目录。必须删除各DataNode的dfs.data.dir。这样才可以使namedode和datanode记录的信息版本对应。
  注意:删除是个很危险的动作,不能确认的情况下不能删除!!做好删除的文件等通通备份!!
  5:java.io.IOException: Could not obtain block: blk_194219614024901469_1100 file=/user/hive/warehouse/src_20090724_log/src_20090724_log
  出现这种情况大多是结点断了,没有连接上。
  6:java.lang.OutOfMemoryError: Java heap space
  出现这种异常,明显是jvm内存不够得原因,要修改所有的datanode的jvm内存大小。
  Java -Xms1024m -Xmx4096m
  一般jvm的最大内存使用应该为总内存大小的一半,我们使用的8G内存,所以设置为4096m,这一值可能依旧不是最优的值。(其实对于最好设置为真实物理内存大小的0.8)
  7:出现map%,但是呢reduce到98%左右的时候呢,就直接进failedjobs了
  解决办法:
  检查mapred.map.tasks是不是设置的太多了,设置太多的话会导致处理大量的小文件
  检查mapred.reduce.parallel.copies是否设置合适。
  8:
  系统根目录下的/tmp文件夹是不可以删除的
  (jps is based on jvmstat and it needs to be able to secure a memory mapped file on the temporary file system. 
  )
  否则bin/hadoop jps
  会出现异常:
  Exception in thread "main" java.lang.NullPointerException  at sun.jvmstat.perfdata.monitor.protocol.local.LocalVmManager.activeVms(LocalVmManager.java:127)
  at sun.jvmstat.perfdata.monitor.protocol.local.MonitoredHostProvider.activeVms(MonitoredHostProvider.java:133)
  at sun.tools.jps.Jps.main(Jps.java:45)
  同时
  bin/hive
  Unable to create log directory /tmp/hadoopuser
  hadoop java.io.ioexception:cannot open filename /user/...
  在eclipse里面写程序运行时,出现了这样的错误,hadoop java.io.ioexception:cannot open filename /user/...
  弄了半天,还查看了日志文件,可能是1)输入文件名写错了2)把hadoop.temp.dir下全删了,datanode的也是,然后重新格式化重启hadoop3)在安全模式,等待自动停止或手动停止安全模式
  10/10/25 16:45:39 INFO mapred.JobClient:  map 92% reduce 30%
  10/10/25 16:45:44 INFO mapred.JobClient: Task Id : attempt_201010251638_0003_m_000013_1, Status : FAILED
  java.io.IOException: Cannot open filename /user/eryk/input/conf
  额,发现是一个命令打的有问题
  错误的命令:
  eryk@eryk-1520:~/tmp/hadoop$ bin/hadoop fs -put conf/ input
  包含的内容:
  eryk@eryk-1520:~/tmp/hadoop$ bin/hadoop fs -lsr
  drwxr-xr-x   - eryk supergroup          0 2010-10-25 16:49 /user/eryk/input
  -rw-r--r--   1 eryk supergroup       3936 2010-10-25 16:48 /user/eryk/input/capacity-scheduler.xml
  drwxr-xr-x   - eryk supergroup          0 2010-10-25 16:49 /user/eryk/input/conf
  -rw-r--r--   1 eryk supergroup       3936 2010-10-25 16:49 /user/eryk/input/conf/capacity-scheduler.xml
  -rw-r--r--   1 eryk supergroup        535 2010-10-25 16:49 /user/eryk/input/conf/configuration.xsl
  -rw-r--r--   1 eryk supergroup        388 2010-10-25 16:49 /user/eryk/input/conf/core-site.xml
  -rw-r--r--   1 eryk supergroup       2360 2010-10-25 16:49 /user/eryk/input/conf/hadoop-env.sh
  -rw-r--r--   1 eryk supergroup       1245 2010-10-25 16:49 /user/eryk/input/conf/hadoop-metrics.properties
  -rw-r--r--   1 eryk supergroup       4190 2010-10-25 16:49 /user/eryk/input/conf/hadoop-policy.xml
  -rw-r--r--   1 eryk supergroup        258 2010-10-25 16:49 /user/eryk/input/conf/hdfs-site.xml
  -rw-r--r--   1 eryk supergroup       2815 2010-10-25 16:49 /user/eryk/input/conf/log4j.properties
  -rw-r--r--   1 eryk supergroup        274 2010-10-25 16:49 /user/eryk/input/conf/mapred-site.xml
  -rw-r--r--   1 eryk supergroup         10 2010-10-25 16:49 /user/eryk/input/conf/masters
  -rw-r--r--   1 eryk supergroup         10 2010-10-25 16:49 /user/eryk/input/conf/slaves
  -rw-r--r--   1 eryk supergroup       1243 2010-10-25 16:49 /user/eryk/input/conf/ssl-client.xml.example
  -rw-r--r--   1 eryk supergroup       1195 2010-10-25 16:49 /user/eryk/input/conf/ssl-server.xml.example
  -rw-r--r--   1 eryk supergroup        535 2010-10-25 16:48 /user/eryk/input/configuration.xsl
  -rw-r--r--   1 eryk supergroup        388 2010-10-25 16:48 /user/eryk/input/core-site.xml
  -rw-r--r--   1 eryk supergroup       2360 2010-10-25 16:48 /user/eryk/input/hadoop-env.sh
  -rw-r--r--   1 eryk supergroup       1245 2010-10-25 16:48 /user/eryk/input/hadoop-metrics.properties
  -rw-r--r--   1 eryk supergroup       4190 2010-10-25 16:48 /user/eryk/input/hadoop-policy.xml
  -rw-r--r--   1 eryk supergroup        258 2010-10-25 16:48 /user/eryk/input/hdfs-site.xml
  -rw-r--r--   1 eryk supergroup       2815 2010-10-25 16:48 /user/eryk/input/log4j.properties
  -rw-r--r--   1 eryk supergroup        274 2010-10-25 16:48 /user/eryk/input/mapred-site.xml
  -rw-r--r--   1 eryk supergroup         10 2010-10-25 16:48 /user/eryk/input/masters
  -rw-r--r--   1 eryk supergroup         10 2010-10-25 16:48 /user/eryk/input/slaves
  -rw-r--r--   1 eryk supergroup       1243 2010-10-25 16:48 /user/eryk/input/ssl-client.xml.example
  -rw-r--r--   1 eryk supergroup       1195 2010-10-25 16:48 /user/eryk/input/ssl-server.xml.example
  发现里面的内容重复了一遍
  修改后的命令:
  eryk@eryk-1520:~/tmp/hadoop$ bin/hadoop fs -put conf input
  只是去掉了conf后面的"/" 
  里面的内容:
  eryk@eryk-1520:~/tmp/hadoop$ bin/hadoop fs -lsr
  drwxr-xr-x   - eryk supergroup          0 2010-10-25 16:49 /user/eryk/input
  -rw-r--r--   1 eryk supergroup       3936 2010-10-25 16:49 /user/eryk/input/capacity-scheduler.xml
  -rw-r--r--   1 eryk supergroup        535 2010-10-25 16:49 /user/eryk/input/configuration.xsl
  -rw-r--r--   1 eryk supergroup        388 2010-10-25 16:49 /user/eryk/input/core-site.xml
  -rw-r--r--   1 eryk supergroup       2360 2010-10-25 16:49 /user/eryk/input/hadoop-env.sh
  -rw-r--r--   1 eryk supergroup       1245 2010-10-25 16:49 /user/eryk/input/hadoop-metrics.properties
  -rw-r--r--   1 eryk supergroup       4190 2010-10-25 16:49 /user/eryk/input/hadoop-policy.xml
  -rw-r--r--   1 eryk supergroup        258 2010-10-25 16:49 /user/eryk/input/hdfs-site.xml
  -rw-r--r--   1 eryk supergroup       2815 2010-10-25 16:49 /user/eryk/input/log4j.properties
  -rw-r--r--   1 eryk supergroup        274 2010-10-25 16:49 /user/eryk/input/mapred-site.xml
  -rw-r--r--   1 eryk supergroup         10 2010-10-25 16:49 /user/eryk/input/masters
  -rw-r--r--   1 eryk supergroup         10 2010-10-25 16:49 /user/eryk/input/slaves
  -rw-r--r--   1 eryk supergroup       1243 2010-10-25 16:49 /user/eryk/input/ssl-client.xml.example
  -rw-r--r--   1 eryk supergroup       1195 2010-10-25 16:49 /user/eryk/input/ssl-server.xml.example

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-312400-1-1.html 上篇帖子: 24 Interview Questions & Answers for Hadoop MapReduce developers 下篇帖子: 总结hadoop mapreduce job添加第三方依赖的方法
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表