设为首页 收藏本站
查看: 989|回复: 0

[经验分享] Hadoop 中使用DistributedCache遇到的问题

[复制链接]

尚未签到

发表于 2016-12-11 08:39:20 | 显示全部楼层 |阅读模式
自己在写MAR/REDUCE代码时,遇到了一个问题,一个大数据文件和一个小数据文件匹配计算,但是小数据文件太小,所以想采用HIVE的MAP JOIN的方式,把小数据文件放到直接大数据文件map的datanode的内存中,这样少了MR代码的1对N的数据文件关联。



实现这个的最佳方案就是利用distributed cache。HIVE的MAP JOIN也是利用这个技术。




首先简要介绍一下distributed cache是如何使用的,然后总结下自己在使用distributed cache遇到的问题,这些问题网上也有人遇到,但是没有给出明确的解释。希望能够帮助同样遇到此类问题的朋友。




distributed cache至少有如下的两类类应用:


1.MAP、REDUCE本身和之间共享的较大数据量的数据

2.布置第三方JAR包,可以避免集群的删减导致部分依赖的机器的JAR包的丢失





distributed cache使用的流程总结如下:


1.在HDFS上准备好要共享的数据(text、archive、jar)

2.在distributed cache中添加文件

3.在mapper或者reducer类中获取数据

4.在map或者reduce函数中使用数据








1.数据本来就在HDFS上,所以省去了流程中的第一步

可以使用hadoop fs -copyFromLocal把本地文件cp到HDFS上

2.在distributed cache中添加文件

public static void disCache(String dimDir, JobConf conf) throws IOException {
FileSystem fs = FileSystem.get(URI.create(dimDir), conf);
FileStatus[] fileDir = fs.listStatus(new Path(dimDir));
for (FileStatus file : fileDir) {
DistributedCache.addCacheFile(URI.create(file.getPath().toString()), conf);
}
}

因为我利用的数据是HIVE脚本生成的,所以无法指定具体的文件路径,采用这种方式把一张HIVE表的所有数据都加载到cache中。如果能直接明确知道文件名称就简单很多了,例如:



DistributedCache.addCacheFile(URI.create(“/mytestfile/file.txt”), conf);


3.在mapper或者reducer中获取数据

public void configure(JobConf job) {
try {
urlFile = DistributedCache.getLocalCacheFiles(job);
seoUrlFile = "file://" + urlFile[0].toString();
allUrlFile = "file://" + urlFile[1].toString();
getData(seoUrlFile, seoUrlDim);
getData(allUrlFile, allUrlDim);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}

      我在流程2中添加了两个文件,通过DistributedCache.getLocalCacheFiles(job)获取Path[],针对不同文件调用getData,把文件数据放在不同的List中seoUrlDim,allUrlDim


     如此一来,distributed cache的过程就结束了,接下来就在map()或者reduce()中使用这些数据就OK了。

4.在map或者reduce函数中使用数据

     一定要区分流程3和4,3是获取数据,4是使用数据。我就是在前期没弄明白这个的差异,导致内存溢出。







虽说好像挺简单的,但是在实现这个代码的过程中有如下几个问题困扰了我好久,网上也没找到很好的解决方案,后来在兄弟的帮助下搞定


1.FileNotFoundException



2.java.lang.OutOfMemoryError: GC overhead limit exceeded


1.FileNotFoundException

     这个问题涉及到DistributedCache.getLocalCacheFiles(job) 这个函数,此函数返回的Path[]是执行map或者reduce的datanode的本地文件系统中路径,但是我在getData中利用的SequenceFile.Reader的默认filesystem是hdfs,这就导致获取数据时是从hdfs上找文件,但是这个文件是在本地文件系统中,所以就会报出这个错误FileNotFoundException。

     例如,DistributedCache.getLocalCacheFiles(job)返回的PATH路径是:/home/dwapp/hugh.wangp/mytestfile/file.txt,在默认文件系统是hdfs时,获取数据时会读hdfs://hdpnn:9000/home/dwapp/hugh.wangp/mytestfile/file.txt,但是我们是在本地文件系统,为了避免数据获取函数选择"错误"的文件系统,我们在/home/dwapp/hugh.wangp/mytestfile/file.txt前加上"file://",这样就会从本地文件系统中读取数据了。就像我例子中的seoUrlFile = "file://" + urlFile[0].toString();




2.java.lang.OutOfMemoryError: GC overhead limit exceeded

     这个问题是我在没搞明白如何使用distributed cache时犯下的错误,也就是我没弄明白流程3和4的区别。我把流程3中说的获取数据的过程放在map函数中,而在map函数中其实是使用数据的过程。这个错误因为使每用一个map就要获取一下数据,也就是初始化一个list容器,使一个datanode上起N个map,就要获取N个list容器,内容溢出也就是自然而然的事情了。

     我们一定要把获取数据的过程放在mapper或reducer类的configure()函数中,这样对应一个datanode就只有一份数据,N个map可以共享着一份数据。







内容单薄,望志同道合之士互相学习。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-312556-1-1.html 上篇帖子: some features of hadoop-0.20.2 下篇帖子: hadoop分析之一HDFS元数据解析
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表