Hadoop源代码分析（Task的内部类和辅助类）

10477777 · 发表于 2016-12-13 08:41:55

　　从前面的图中，我们可以发现Task有很多内部类，并拥有大量类成员变量，这些类配合Task完成相关的工作，如下图。
　　

　　　　MapOutputFile管理着Mapper的输出文件，它提供了一系列get方法，用于获取Mapper需要的各种文件，这些文件都存放在一个目录下面。
　　我们假设传入MapOutputFile的JobID为job_200707121733_0003，TaskID为task_200707121733_0003_m_000005。MapOutputFile的根为
{mapred.local.dir}/taskTracker/jobcache/{jobid}/{taskid}/output
　　在下面的讨论中，我们把上面的路径记为{MapOutputFileRoot}
　　以上面JogID和TaskID为例，我们有：
{mapred.local.dir}/taskTracker/jobcache/job_200707121733_0003/task_200707121733_0003_m_000005/output
　　需要注意的是，{mapred.local.dir}可以包含一系列的路径，那么，Hadoop会在这些根路径下找一个满足要求的目录，建立所需的文件。MapOutputFile的方法有两种，结尾带ForWrite和不带ForWrite，带ForWrite用于创建文件，它需要一个文件大小作为参数，用于检查磁盘空间。不带ForWrite用于获取以建立的文件。
　　getOutputFile：文件名为{MapOutputFileRoot}/file.out；
　　getOutputIndexFile：文件名为{MapOutputFileRoot}/file.out.index
　　getSpillFile：文件名为{MapOutputFileRoot}/spill{spillNumber}.out
　　getSpillIndexFile：文件名为{MapOutputFileRoot}/spill{spillNumber}.out.index
　　以上四个方法用于Task子类MapTask中；
　　getInputFile：文件名为{MapOutputFileRoot}/map_{mapId}.out
　　用于ReduceTask中。我们到使用到他们的地方再介绍相应的应用场景。
　　介绍完临时文件管理以后，我们来看Task.CombineOutputCollector，它继承自org.apache.hadoop.mapred.OutputCollector，很简单，只是一个OutputCollector到IFile.Writer的Adapter，活都让IFile.Writer干了。
　　ValuesIterator用于从RawKeyValueIterator（Key，Value都是DataInputBuffer，ValuesIterator要求该输入已经排序）中获取符合RawComparator<KEY> comparator的值的迭代器。它在Task中有一个简单子类，CombineValuesIterator。
　　Task.TaskReporter用于向JobTracker提交计数器报告和状态报告，它实现了计数器报告Reporter和状态报告StatusReporter。为了不影响主线程的工作，TaskReporter有一个独立的线程，该线程通过TaskUmbilicalProtocol接口，利用Hadoop的RPC机制，向JobTracker报告Task执行情况。
　　FileSystemStatisticUpdater用于记录对文件系统的对/写操作字节数，是个简单的工具类。

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] Hadoop源代码分析（Task的内部类和辅助类）

浏览过的版块

扫码加入运维网微信交流群