学习hadoop 出现的问题，以及解决方案

maxc1017 · 发表于 2016-12-11 06:23:15

　　1：Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out
　　Answer：
　　程序里面需要打开多个文件，进行分析，系统一般默认数量是1024，（用ulimit -a可以看到）对于正常使用是够了，但是对于程序来讲，就太少了。
　　修改办法：
　　修改2个文件。
　　/etc/security/limits.conf
　　vi /etc/security/limits.conf
　　加上：
　　* soft nofile 102400
　　* hard nofile 409600
　　$cd /etc/pam.d/
　　$sudo vi login
　　添加session required /lib/security/pam_limits.so
　　2：Too many fetch-failures
　　Answer:
　　出现这个问题主要是结点间的连通不够全面。
　　1) 检查、/etc/hosts
　　要求本机ip 对应服务器名
　　要求要包含所有的服务器ip + 服务器名
　　2) 检查 .ssh/authorized_keys
　　要求包含所有服务器（包括其自身）的public key
　　3：处理速度特别的慢出现map很快但是reduce很慢而且反复出现 reduce=0%
　　Answer:
　　结合第二点，然后
　　修改 conf/hadoop-env.sh 中的export HADOOP_HEAPSIZE=4000
　　4：能够启动datanode，但无法访问，也无法结束的错误
　　在重新格式化一个新的分布式文件时，需要将你NameNode上所配置的dfs.name.dir这一namenode用来存放NameNode 持久存储名字空间及事务日志的本地文件系统路径删除，同时将各DataNode上的dfs.data.dir的路径 DataNode 存放块数据的本地文件系统路径的目录也删除。如本此配置就是在NameNode上删除/home/hadoop/NameData，在DataNode上删除/home/hadoop/DataNode1和/home/hadoop/DataNode2。这是因为Hadoop在格式化一个新的分布式文件系统时，每个存储的名字空间都对应了建立时间的那个版本（可以查看/home/hadoop /NameData/current目录下的VERSION文件，上面记录了版本信息），在重新格式化新的分布式系统文件时，最好先删除NameData 目录。必须删除各DataNode的dfs.data.dir。这样才可以使namedode和datanode记录的信息版本对应。
　　注意：删除是个很危险的动作，不能确认的情况下不能删除！！做好删除的文件等通通备份！！
　　5：java.io.IOException: Could not obtain block: blk_194219614024901469_1100 file=/user/hive/warehouse/src_20090724_log/src_20090724_log
　　出现这种情况大多是结点断了，没有连接上。
　　6：java.lang.OutOfMemoryError: Java heap space
　　出现这种异常，明显是jvm内存不够得原因，要修改所有的datanode的jvm内存大小。
　　Java -Xms1024m -Xmx4096m
　　一般jvm的最大内存使用应该为总内存大小的一半，我们使用的8G内存，所以设置为4096m，这一值可能依旧不是最优的值。（其实对于最好设置为真实物理内存大小的0.8）
　　7：出现map%,但是呢reduce到98%左右的时候呢，就直接进failedjobs了
　　解决办法：
　　检查mapred.map.tasks是不是设置的太多了，设置太多的话会导致处理大量的小文件
　　检查mapred.reduce.parallel.copies是否设置合适。
　　8:
　　系统根目录下的/tmp文件夹是不可以删除的
　　否则bin/hadoop jps
　　会出现异常：
　　Exception in thread "main" java.lang.NullPointerException at sun.jvmstat.perfdata.monitor.protocol.local.LocalVmManager.activeVms(LocalVmManager.java:127)
　　at sun.jvmstat.perfdata.monitor.protocol.local.MonitoredHostProvider.activeVms(MonitoredHostProvider.java:133)
　　at sun.tools.jps.Jps.main(Jps.java:45)
　　同时
　　bin/hive
　　Unable to create log directory /tmp/hadoopuser
　　2：Too many fetch-failures
　　Answer:
　　出现这个问题主要是结点间的连通不够全面。
　　1) 检查、/etc/hosts
　　要求本机ip 对应服务器名
　　要求要包含所有的服务器ip + 服务器名
　　2) 检查 .ssh/authorized_keys
　　要求包含所有服务器（包括其自身）的public key
　　3：处理速度特别的慢出现map很快但是reduce很慢而且反复出现 reduce=0%
　　Answer:
　　结合第二点，然后
　　修改 conf/hadoop-env.sh 中的export HADOOP_HEAPSIZE=4000
　　4：能够启动datanode，但无法访问，也无法结束的错误
　　在重新格式化一个新的分布式文件时，需要将你NameNode上所配置的dfs.name.dir这一namenode用来存放NameNode 持久存储名字空间及事务日志的本地文件系统路径删除，同时将各DataNode上的dfs.data.dir的路径 DataNode 存放块数据的本地文件系统路径的目录也删除。如本此配置就是在NameNode上删除/home/hadoop/NameData，在DataNode上删除/home/hadoop/DataNode1和/home/hadoop/DataNode2。这是因为Hadoop在格式化一个新的分布式文件系统时，每个存储的名字空间都对应了建立时间的那个版本（可以查看/home/hadoop /NameData/current目录下的VERSION文件，上面记录了版本信息），在重新格式化新的分布式系统文件时，最好先删除NameData 目录。必须删除各DataNode的dfs.data.dir。这样才可以使namedode和datanode记录的信息版本对应。
　　注意：删除是个很危险的动作，不能确认的情况下不能删除！！做好删除的文件等通通备份！！
　　5：java.io.IOException: Could not obtain block: blk_194219614024901469_1100 file=/user/hive/warehouse/src_20090724_log/src_20090724_log
　　出现这种情况大多是结点断了，没有连接上。
　　6：java.lang.OutOfMemoryError: Java heap space
　　出现这种异常，明显是jvm内存不够得原因，要修改所有的datanode的jvm内存大小。
　　Java -Xms1024m -Xmx4096m
　　一般jvm的最大内存使用应该为总内存大小的一半，我们使用的8G内存，所以设置为4096m，这一值可能依旧不是最优的值。（其实对于最好设置为真实物理内存大小的0.8）
　　7：出现map%,但是呢reduce到98%左右的时候呢，就直接进failedjobs了
　　解决办法：
　　检查mapred.map.tasks是不是设置的太多了，设置太多的话会导致处理大量的小文件
　　检查mapred.reduce.parallel.copies是否设置合适。
　　8:
　　系统根目录下的/tmp文件夹是不可以删除的
　　否则bin/hadoop jps
　　会出现异常：
　　Exception in thread "main" java.lang.NullPointerException at sun.jvmstat.perfdata.monitor.protocol.local.LocalVmManager.activeVms(LocalVmManager.java:127)
　　at sun.jvmstat.perfdata.monitor.protocol.local.MonitoredHostProvider.activeVms(MonitoredHostProvider.java:133)
　　at sun.tools.jps.Jps.main(Jps.java:45)
　　同时
　　bin/hive
　　Unable to create log directory /tmp/hadoopuser
　　2：Too many fetch-failures
　　Answer:
　　出现这个问题主要是结点间的连通不够全面。
　　1) 检查、/etc/hosts
　　要求本机ip 对应服务器名
　　要求要包含所有的服务器ip + 服务器名
　　2) 检查 .ssh/authorized_keys
　　要求包含所有服务器（包括其自身）的public key
　　3：处理速度特别的慢出现map很快但是reduce很慢而且反复出现 reduce=0%
　　Answer:
　　结合第二点，然后
　　修改 conf/hadoop-env.sh 中的export HADOOP_HEAPSIZE=4000
　　4：能够启动datanode，但无法访问，也无法结束的错误
　　在重新格式化一个新的分布式文件时，需要将你NameNode上所配置的dfs.name.dir这一namenode用来存放NameNode 持久存储名字空间及事务日志的本地文件系统路径删除，同时将各DataNode上的dfs.data.dir的路径 DataNode 存放块数据的本地文件系统路径的目录也删除。如本此配置就是在NameNode上删除/home/hadoop/NameData，在DataNode上删除/home/hadoop/DataNode1和/home/hadoop/DataNode2。这是因为Hadoop在格式化一个新的分布式文件系统时，每个存储的名字空间都对应了建立时间的那个版本（可以查看/home/hadoop /NameData/current目录下的VERSION文件，上面记录了版本信息），在重新格式化新的分布式系统文件时，最好先删除NameData 目录。必须删除各DataNode的dfs.data.dir。这样才可以使namedode和datanode记录的信息版本对应。
　　注意：删除是个很危险的动作，不能确认的情况下不能删除！！做好删除的文件等通通备份！！
　　5：java.io.IOException: Could not obtain block: blk_194219614024901469_1100 file=/user/hive/warehouse/src_20090724_log/src_20090724_log
　　出现这种情况大多是结点断了，没有连接上。
　　6：java.lang.OutOfMemoryError: Java heap space
　　出现这种异常，明显是jvm内存不够得原因，要修改所有的datanode的jvm内存大小。
　　Java -Xms1024m -Xmx4096m
　　一般jvm的最大内存使用应该为总内存大小的一半，我们使用的8G内存，所以设置为4096m，这一值可能依旧不是最优的值。（其实对于最好设置为真实物理内存大小的0.8）
　　7：出现map%,但是呢reduce到98%左右的时候呢，就直接进failedjobs了
　　解决办法：
　　检查mapred.map.tasks是不是设置的太多了，设置太多的话会导致处理大量的小文件
　　检查mapred.reduce.parallel.copies是否设置合适。
　　8:
　　系统根目录下的/tmp文件夹是不可以删除的
　　（jps is based on jvmstat and it needs to be able to secure a memory mapped file on the temporary file system.
　　）
　　否则bin/hadoop jps
　　会出现异常：
　　Exception in thread "main" java.lang.NullPointerException at sun.jvmstat.perfdata.monitor.protocol.local.LocalVmManager.activeVms(LocalVmManager.java:127)
　　at sun.jvmstat.perfdata.monitor.protocol.local.MonitoredHostProvider.activeVms(MonitoredHostProvider.java:133)
　　at sun.tools.jps.Jps.main(Jps.java:45)
　　同时
　　bin/hive
　　Unable to create log directory /tmp/hadoopuser
　　hadoop java.io.ioexception:cannot open filename /user/...
　　在eclipse里面写程序运行时，出现了这样的错误，hadoop java.io.ioexception:cannot open filename /user/...
　　弄了半天，还查看了日志文件，可能是1）输入文件名写错了2）把hadoop.temp.dir下全删了，datanode的也是，然后重新格式化重启hadoop3）在安全模式，等待自动停止或手动停止安全模式
　　10/10/25 16:45:39 INFO mapred.JobClient: map 92% reduce 30%
　　10/10/25 16:45:44 INFO mapred.JobClient: Task Id : attempt_201010251638_0003_m_000013_1, Status : FAILED
　　java.io.IOException: Cannot open filename /user/eryk/input/conf
　　额，发现是一个命令打的有问题
　　错误的命令：
　　eryk@eryk-1520:~/tmp/hadoop$ bin/hadoop fs -put conf/ input
　　包含的内容：
　　eryk@eryk-1520:~/tmp/hadoop$ bin/hadoop fs -lsr
　　drwxr-xr-x - eryk supergroup 0 2010-10-25 16:49 /user/eryk/input
　　-rw-r--r-- 1 eryk supergroup 3936 2010-10-25 16:48 /user/eryk/input/capacity-scheduler.xml
　　drwxr-xr-x - eryk supergroup 0 2010-10-25 16:49 /user/eryk/input/conf
　　-rw-r--r-- 1 eryk supergroup 3936 2010-10-25 16:49 /user/eryk/input/conf/capacity-scheduler.xml
　　-rw-r--r-- 1 eryk supergroup 535 2010-10-25 16:49 /user/eryk/input/conf/configuration.xsl
　　-rw-r--r-- 1 eryk supergroup 388 2010-10-25 16:49 /user/eryk/input/conf/core-site.xml
　　-rw-r--r-- 1 eryk supergroup 2360 2010-10-25 16:49 /user/eryk/input/conf/hadoop-env.sh
　　-rw-r--r-- 1 eryk supergroup 1245 2010-10-25 16:49 /user/eryk/input/conf/hadoop-metrics.properties
　　-rw-r--r-- 1 eryk supergroup 4190 2010-10-25 16:49 /user/eryk/input/conf/hadoop-policy.xml
　　-rw-r--r-- 1 eryk supergroup 258 2010-10-25 16:49 /user/eryk/input/conf/hdfs-site.xml
　　-rw-r--r-- 1 eryk supergroup 2815 2010-10-25 16:49 /user/eryk/input/conf/log4j.properties
　　-rw-r--r-- 1 eryk supergroup 274 2010-10-25 16:49 /user/eryk/input/conf/mapred-site.xml
　　-rw-r--r-- 1 eryk supergroup 10 2010-10-25 16:49 /user/eryk/input/conf/masters
　　-rw-r--r-- 1 eryk supergroup 10 2010-10-25 16:49 /user/eryk/input/conf/slaves
　　-rw-r--r-- 1 eryk supergroup 1243 2010-10-25 16:49 /user/eryk/input/conf/ssl-client.xml.example
　　-rw-r--r-- 1 eryk supergroup 1195 2010-10-25 16:49 /user/eryk/input/conf/ssl-server.xml.example
　　-rw-r--r-- 1 eryk supergroup 535 2010-10-25 16:48 /user/eryk/input/configuration.xsl
　　-rw-r--r-- 1 eryk supergroup 388 2010-10-25 16:48 /user/eryk/input/core-site.xml
　　-rw-r--r-- 1 eryk supergroup 2360 2010-10-25 16:48 /user/eryk/input/hadoop-env.sh
　　-rw-r--r-- 1 eryk supergroup 1245 2010-10-25 16:48 /user/eryk/input/hadoop-metrics.properties
　　-rw-r--r-- 1 eryk supergroup 4190 2010-10-25 16:48 /user/eryk/input/hadoop-policy.xml
　　-rw-r--r-- 1 eryk supergroup 258 2010-10-25 16:48 /user/eryk/input/hdfs-site.xml
　　-rw-r--r-- 1 eryk supergroup 2815 2010-10-25 16:48 /user/eryk/input/log4j.properties
　　-rw-r--r-- 1 eryk supergroup 274 2010-10-25 16:48 /user/eryk/input/mapred-site.xml
　　-rw-r--r-- 1 eryk supergroup 10 2010-10-25 16:48 /user/eryk/input/masters
　　-rw-r--r-- 1 eryk supergroup 10 2010-10-25 16:48 /user/eryk/input/slaves
　　-rw-r--r-- 1 eryk supergroup 1243 2010-10-25 16:48 /user/eryk/input/ssl-client.xml.example
　　-rw-r--r-- 1 eryk supergroup 1195 2010-10-25 16:48 /user/eryk/input/ssl-server.xml.example
　　发现里面的内容重复了一遍
　　修改后的命令：
　　eryk@eryk-1520:~/tmp/hadoop$ bin/hadoop fs -put conf input
　　只是去掉了conf后面的"/"
　　里面的内容：
　　eryk@eryk-1520:~/tmp/hadoop$ bin/hadoop fs -lsr
　　drwxr-xr-x - eryk supergroup 0 2010-10-25 16:49 /user/eryk/input
　　-rw-r--r-- 1 eryk supergroup 3936 2010-10-25 16:49 /user/eryk/input/capacity-scheduler.xml
　　-rw-r--r-- 1 eryk supergroup 535 2010-10-25 16:49 /user/eryk/input/configuration.xsl
　　-rw-r--r-- 1 eryk supergroup 388 2010-10-25 16:49 /user/eryk/input/core-site.xml
　　-rw-r--r-- 1 eryk supergroup 2360 2010-10-25 16:49 /user/eryk/input/hadoop-env.sh
　　-rw-r--r-- 1 eryk supergroup 1245 2010-10-25 16:49 /user/eryk/input/hadoop-metrics.properties
　　-rw-r--r-- 1 eryk supergroup 4190 2010-10-25 16:49 /user/eryk/input/hadoop-policy.xml
　　-rw-r--r-- 1 eryk supergroup 258 2010-10-25 16:49 /user/eryk/input/hdfs-site.xml
　　-rw-r--r-- 1 eryk supergroup 2815 2010-10-25 16:49 /user/eryk/input/log4j.properties
　　-rw-r--r-- 1 eryk supergroup 274 2010-10-25 16:49 /user/eryk/input/mapred-site.xml
　　-rw-r--r-- 1 eryk supergroup 10 2010-10-25 16:49 /user/eryk/input/masters
　　-rw-r--r-- 1 eryk supergroup 10 2010-10-25 16:49 /user/eryk/input/slaves
　　-rw-r--r-- 1 eryk supergroup 1243 2010-10-25 16:49 /user/eryk/input/ssl-client.xml.example
　　-rw-r--r-- 1 eryk supergroup 1195 2010-10-25 16:49 /user/eryk/input/ssl-server.xml.example

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] 学习hadoop 出现的问题，以及解决方案

浏览过的版块

扫码加入运维网微信交流群