hadoop源码导入eclipse

ameimeng · 发表于 2017-12-17 07:05:04

　　1. 安装Apache Maven。

一般是直接到官网下载最新的binaries;
解压到你所希望的目录，比如C:\Program Files\Apache Software Foundation\；
将命令所在路径加入到PATH环境变量中。解压后得到一个目录，我下载的是3.3.1版，得到的目录是apache-maven-3.3.1；maven的可执行命令mvn的目录是C:\Program Files\Apache Software Foundation\apache-maven-3.3.1\bin，需要确保这个路径加入到PATH环境变量中。
验证安装。安装好后，打开一个cmd窗口，执行mvn -version，会输出一些信息（在磁盘根目录下执行这个命令可能会输出java.exe的用法信息，出现这个现象的原因是，mvn命令中启动java.exe时传递的一个参数是路径但最后一个字符不能是"\"，而根目录通过%CD%变量给出的字符串的最后一个字符恰恰是"\"，所以会出现问题。换到一个非磁盘根目录下执行命令，会正常显示，一般包括Maven的版本和HOME路径，Java的版本和HOME路径，默认Locale，OS的信息。不能正常显示也不会影响后面的过程，只要表明能够找到mvn命令即可）。
设置MAVEN_OPTS。能够为了避免编译时java虚拟机的内存不够，需要设置一个环境变量MAVEN_OPTS，值为-Xms256m -Xmx512m。如果在windows的命令提示符下，使用set MAVEN_OPTS=-Xms256m -Xmx512m（注意没有引号）。

　　2. （想用官方源的可以跳过这步）可以修改maven的源配置，可以修改成国内的源，下载速度可能快些。请参考http://www.cnblogs.com/errorx/p/3779578.html这篇博文。对于我的maven安装来讲，是要修改C:\Program Files\Apache Software Foundation\apache-maven-3.3.1\conf\目录下的settings.xml文件。
　　3. 下载protocol buffers的编译器程序，即protoc.exe，放到通过PATH环境变量可以找到的目录（或者将protoc.exe所在目录加入到PATH环境变量中）。这个protocol buffers是google的项目，但相关源码和下载已经转到github.com上了，方便了下载。请下载2.5.0版本的二进制程序。https://github.com/google/protobuf/releases。如果下载有困难可以从下面链接下载：http://vdisk.weibo.com/s/BICjq6gk87iUM（windows的二进制程序），http://vdisk.weibo.com/s/BICjq6gk87iV5（源码，Linux下编译）。安装完毕后执行protoc --version检查一下。
　　4. 解压源码某个目录下面（最好直接放在根目录下）。
　　5. 进入源码根目录下的hadoop-maven-plugins目录，执行 mvn install。注意执行mvn命令的过程中，可能下载很多maven所需文件，而且因为网速问题，可以经常出错。这时的解决办法是不断重新执行相关mvn命令（包括下面那个步骤也是如此），直到不是因为下载东西导致出错（此时才需要真正查看错误信息）。成功后会显示BUILD SUCCESS。
　　6. 进入hadoop-maven-plugins目录的上层目录（即源代码根目录），执行
[plain] view plain copy

mvn eclipse:eclipse -DskipTests

　　成功后会显示BUILD SUCCESS。
　　7. 打开Eclipse，最后专门建一个workspace（即建一个专门目录），执行菜单命令：File->Import，弹出对话框后，在General下面选择Existing Projects into Workspace，然后定位到源代码根目录，点击“Finish”按钮导入。导入后会有一些错误，主要是三个：
序号DescriptionResourcePathLocationType(1)AvroRecord cannot be resolved to a typeTestAvroSerialization.java/hadoop-common/src/test/java/org/apache/hadoop/io/serializer/avroline 32Java Problem(2)EchoRequestProto cannot be resolvedRPCCallBenchmark.java/hadoop-common/src/test/java/org/apache/hadoop/ipcline 397Java Problem(3)Project 'hadoop-streaming' is missing required source folder: '<你的源代码根目录>/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-server/hadoop-yarn-server-resourcemanager/conf'hadoop-streaming Build pathBuild Path Problem　　解决第一个错误：

需要下载avro-tools-x.x.x.jar文件，可以下载当前最新的，地址http://mirrors.hust.edu.cn/apache/avro/avro-1.7.7/java/avro-tools-1.7.7.jar（华中科技大学的镜像）。版本更新之后地址可能变化，可以到avro.apache.org上面找最新地址或者最新版本。
进入源码根目录下的“hadoop-common-project\hadoop-common\src\test\avro”执行命令，java -jar <所在目录>\avro-tools-1.7.7.jar compile schema avroRecord.avsc ..\java 。其中avsc文件是avro的模式文件，上面命令是要通过模式文件生成相应的.java文件。
右键单击eclipse中的hadoop-common项目，然后refresh。【如果refresh不成功，直接refresh出错源码文件所在的包】

　　解决第二个错误，也是要生成一些.Java文件：

进入源码根目录下的“hadoop-common-project\hadoop-common\src\test\proto”，执行protoc --java_out=..\java *.proto 命令（protoc就是在上面第三步下载的protoc程序）。
右键单击eclipse中的hadoop-common，然后refresh。【如果refresh不成功，直接refresh出错源码文件所在的包】

　　解决第三个错误：

在eclipse中，右键单击hadoop-streaming项目，选择“Properties”，左侧栏选择Java Build Path，然后右边选择Source标签页，注意出错的那个路径（先不要删除）。
点击“Link Source按钮”，选择被链接的目录为“<你的源代码根目录>/hadoop-yarn-project/hadoop-yarn/hadoop-yarn-server/hadoop-yarn-server-resourcemanager/conf”，链接名可以使用显示的（也可以随便取）；
inclusion patterns中添加capacity-scheduler.xml，exclusion patters中添加**/*.java，这个信息与出错的那项一样；完毕后将出错的项删除。刷新hadoop-streaming项目。

　　【补充：好像直接将出错的Source标签页中的项删去，也可以】
　　第四个错误:
　　Access restriction: The type JpcapCaptor is not accessible due to restriction on required library /media/sda7/opt/jdk1.6.0_16/jre/lib/
　　ext/jpcap.jar
　　其实要解决它也很容易，在Window - Java - Compiler - Errors/Warnings界面的Deprecated and restricted API下。把Forbidden reference (access rules): 的规则由默认的Error改为Warning即可。
　　至此可以成功导入Hadoop 2.6.0 的源代码到eclipse中，结果如下图所示：

　　附：
　　发现一个不常见的问题。一份hadoop-2.6.0的源码经过上面过程导入到eclipse后（在windows上），然后再把这份源码上传到Linux服务器（RHEL 64bit）进行编译，结果出现编译通不过的情况，而使用一份未经此处理的代码，编译是可以顺利通过的。也许顺序到颠倒过来才好——先在Linux上编译，然后在下载到windows环境下导入eclipse。或者干脆直接同步具体的源代码文件，而不管什么eclipse的工程文件。
　　换了JDK版本之后，可能需要重新走一下这个流程。
　　上面过程对于hadoop-2.7.0的源码也适用。

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] hadoop源码导入eclipse

浏览过的版块

扫码加入运维网微信交流群