设为首页 收藏本站
查看: 1095|回复: 0

[经验分享] 运行Hadoop作业时一处常见错误以及解决方法

[复制链接]

尚未签到

发表于 2018-10-30 11:54:02 | 显示全部楼层 |阅读模式
1. 问题描述
  当用户编写完Hadoop程序时,准备运行时,经常会抛出以下异常:

  [15:10:41,949][
INFO][main][org.apache.hadoop.mapred.JobClient:1330] – Task>  Error: java.lang.ClassNotFoundException: com.sca.commons.ScaException
  at java.net.URLClassLoader$1.run(URLClassLoader.java:202)
  at java.security.AccessController.doPrivileged(Native Method)
  at java.net.URLClassLoader.findClass(URLClassLoader.java:190)
  at java.lang.ClassLoader.loadClass(ClassLoader.java:306)
  at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)
  at java.lang.ClassLoader.loadClass(ClassLoader.java:247)
  at java.lang.Class.forName0(Native Method)
  at java.lang.Class.forName(Class.java:247)
  at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:819)
  at org.apache.hadoop.conf.Configuration.getClass(Configuration.java:864)
  at org.apache.hadoop.mapreduce.lib.map.MultithreadedMapper.getMapperClass(MultithreadedMapper.java:95)
  at org.apache.hadoop.mapreduce.lib.map.MultithreadedMapper.run(MultithreadedMapper.java:127)
  at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:764)
  at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)
  at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
  at java.security.AccessController.doPrivileged(Native Method)
  at javax.security.auth.Subject.doAs(Subject.java:396)
  at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1083)
  at org.apache.hadoop.mapred.Child.main(Child.java:249)
  大家一看异常“java.lang.ClassNotFoundException”就会知道原因是找不到java类。
  经个人总结,这通常是由于以下几种原因造成的:
  (1)你编写了一个java lib,封装成了jar,然后再写了一个Hadoop程序,调用这个jar完成mapper和reducer的编写
  (2)你编写了一个Hadoop程序,期间调用了一个第三方java lib。
  之后,你将自己的jar包或者第三方java包分发到各个TaskTracker的HADOOP_HOME目录下,运行你的JAVA程序,报了以上错误。
2. 解决方法
  (1) 在运行脚本中添加classpath.
  在$HADOOP_HOME/conf/hadoop_env.sh 或者$HADOOP_HOME/bin/hadoop-config.sh中添加:
  export HADOOP_CLASSPATH=$HADOOP_HOME/my_jars
  然后将你自己的jar包和第三方jar包分发到各个TaskTracker的HADOOP_CLASSPATH目录下(别忘了所有
TaskTracker上的hadoop_env.sh和hadoop-config.sh均按以上方法添加HADOOP_CLASSPATH环境变量)
  【注】hadoop_env.sh和hadoop-config.sh是所有hadoop运行脚本(start-all.sh, start-dfs.sh等)一定会引用的配置脚本,可以将一些最基本的环境变量或者配置参数加到这两个文件中。
  (2) 使用“-libjars“参数
  这种方式是本人推荐的方法,但是支持这个功能,需要按照如下方式编写Hadoop程序:
public class MyHadoopJob extends Configured implements Tool {  

  
   public static class  MapClass
  

  
      extends Mapper {
  

  
      //your mapper
  

  
   }
  

  
   public static class  Reduce
  

  
      extends  Reducer {
  

  
      //your reducer
  

  
   }
  

  
//设定并读取应用程序相关的,自己定义的一些参数
  

  
   public int run(String[] args)  throws Exception {
  

  
      if(args.length < 2) {
  

  
         printUsage();
  

  
        return 2;
  

  
    }
  

  
   Job job = new Job(getConf());
  

  
   …......
  

  
   }
  

  
   //真正的main函数
  

  
   public static void main(String[] args) throws  Exception{
  

  
      int  res = ToolRunner.run(new Configuration(), new SleepJob(), args);
  

  
      System.exit(res);
  

  
   }
  

  
}
  运行作业:
#run_myjob.sh  
bin/hadoop jar myjob.jar MyHadoopJob \
  
-D mapred.job.name=MyHadoopJob \
  
-D mapred.map.tasks=24 \
  
-D mapred.mreduce.tasks=12 \
  
-D mapred.input.dir=/test/input1,test/input2 \
  
-D mapred.output.dir=/test/output \
  
-libjars myjob.jar,third-party.jar
  
-my1 5 \
  
-my2 china
  运行./run_myjob.sh
  其中 “-libjars“指定本地两个jar文件,Hadoop自动会把这两个文件分发到各个TaskTracker的临时工作目录下,用完后自动删除。
3. 解决方案比较
  第一种方法过于笨拙,每次都要人工地将jar包分发到各个TaskTracker上,如果集群很大,非常耗时;第二种方法利用了Hadoop内部机
制进行jar包分发,非常方便。实际上,在Hadoop example中,除了WordCount例子外,其他所有例子均采用了方案2的设计方法。
  转载原文地址:http://dongxicheng.org/mapreduce/run-hadoop-job-problems/



运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-628459-1-1.html 上篇帖子: Hadoop中常用的一些命名 下篇帖子: Hadoop1.0.0学习笔记
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表