Hadoop的mapred TaskTracker端源码概览

why · 发表于 2016-12-10 09:41:27

花了许多功夫把Hadoop的mapreduce实现过了一遍，基本线索理清楚了：
1. 任务的运行时TaskTracker通过heartbeat取得
2. TaskTracker得到hearbeatresponse之后，会根据封装在response里的action来决定行为
3. 如果是launchaction的话，调用TasklLauncher,在startNewTasks中的localizeJob调用launchTaskForJob然后再TaskInProgress中launchTask让runner.start(); - 这里面的startNewTasks是在线程中的run方法中，而TaskLauncher的notifyall会把线程唤醒：

public void addToTaskQueue(LaunchTaskAction action) {
synchronized (tasksToLaunch) {
TaskInProgress tip = registerTask(action, this);
tasksToLaunch.add(tip);
tasksToLaunch.notifyAll();
}
}

而这个addToTaskQueue方法是在offerService中调用的,这样就整过过程就街上了：
if (action instanceof LaunchTaskAction) {
addToTaskQueue((LaunchTaskAction)action);
} else if (action instanceof CommitTaskAction)

4. 这个时候就回到TaskRunner.run中去launchJVM，当然要把这个JVM的参数构造好，这个JVM就是我们看到map任务运行的JVM
5. 然后JVMRunner会spawn JVM，这是通过shexe Child这个类来实现的，这个Child的main就是新起的JVM的主函数入口
6.在Child.main中会对任务的类型进行判断，调用相应的MapTask.run和ReduceTask.run
7.这个时候就可以看到mapper.map入口啦，然后就开始执行用户定义的mapper！
所以Child启动以后的log输出和前面TaskTracker的输出不在同一个文件里，因为已经不是一个虚拟机了。

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] Hadoop的mapred TaskTracker端源码概览

浏览过的版块

扫码加入运维网微信交流群