设为首页 收藏本站
查看: 661|回复: 0

[经验分享] Hadoop MapReduce 任务执行流程源代码详细解析

[复制链接]
发表于 2016-12-11 10:38:34 | 显示全部楼层 |阅读模式

1 引言

1.1 目的
  该文档从源代码的级别剖析了Hadoop0.20.2版本的MapReduce模块的运行原理和流程,对JobTracker、TaskTracker的内部结构和交互流程做了详细介绍。系统地分析了Map程序和Reduce程序运行的原理。读者在阅读之后会对Hadoop MapReduce0.20.2版本源代码有一个大致的认识。
1.2 读者范围
  如果读者想只是想从原理上更加深入了解Hadoop MapReduce运行机制的话,只需要阅读第2章综述即可,该章节要求读者对HadoopMapReduce模型有系统的了解。
  如果读者想深入了解HadoopMapReduce的源代码,则需阅读该文档第2、3节。阅读第3节需要读者熟练掌握Java语言的基本语法,并且对反射机制、动态代理有一定的了解。同时,还要求读者对于Hadoop HDFS和Hadoop RPC的基本用法有一定的了解。
  另外,属性Hadoop源代码的最好方法是远程调试,有关远程调试的方法请读者去网上自行查阅资料。

2 综述
  Hadoop源代码分为三大模块:MapReduce、HDFS和Hadoop Common。其中MapReduce模块主要实现了MapReduce模型的相关功能;HDFS模块主要实现了HDFS的相关功能;而Hadoop Common主要实现了一些基础功能,比如说RPC、网络通信等。
  在用户使用HadoopMapReduce模型进行并行计算时,用户只需要写好Map函数、Reduce函数,之后调用JobClient将Job提交即可。在JobTracker收到提交的Job之后,便会对Job进行一系列的配置,然后交给TaskTracker进行执行。执行完毕之后,JobTracker会通知JobClient任务完成,并将结果存入HDFS中
DSC0000.gif

  如图所示,用户提交Job是通过JobClient类的submitJob()函数实现的。在Hadoop源代码中,一个被提交了的Job由JobInProgress类的一个实例表示。该类封装了表示Job的各种信息,以及Job所需要执行的各种动作。在调用submitJob()函数之后,JobTracker会将作业加入到一个队列中去,这个队列的名字叫做jobInitQueue。然后,在JobTracker中,有一个名为JobQueueTaskScheduler的对象,会不断轮询jobInitQueue队列,一旦发现有新的Job加入,便将其取出,然后将其初始化。
  在Hadoop代码中,一个Task由一个TaskInProgress类的实例表示。该类封装了描述Task所需的各种信息以及Task执行的各种动作。
  TaskTracker自从启动以后,会每隔一段时间向JobTracker发送消息,消息的名称为“Heartbeat”。Heartbeat中包含了该TaskTracker当前的状态以及对Task的请求。JobTracker在收到Heartbeat之后,会检查该heartbeat的里所包含的各种信息,如果发现错误会启动相应的错误处理程序。如果TaskTracker在Heartbeat中添加了对Task的请求,则JobTracker会添加相应的指令在对Heartbeat的回复中。在Hadoop源代码中,JobTracker对TaskTracker的指令称为action,JobTracker对TaskTracker所发送来的Heartbeat的回复消息称为HeartbeatResponse。
  在TaskTracker内部,有一个队列叫做TaskQueue。该中包含了所有新加入的Task。每当TaskTracker收到HeartbeatResponse后,会对其进行检查,如果其中包含了新的Task,便将其加入到TaskQueue中。在TaskTracker内部,有两个线程不断轮询TaskQueue,一个是MapLauncher,另一个是ReduceLauncher。如果发现有新加入的Map任务,MapLauncher便将其取出并且执行。如果是Reduce任务,ReduceLauncher便将其取出执行。
  不论是Map Task还是Reduce Task,当他们被取出之后,都要进行本地化。本地化的意思就是将所有需要的信息,比如需要运行的jar文件、配置文件、输入数据等等,一起拷贝到本地的文件系统。这样做的目的是为了方便任务在某台机器上独立执行。本地化之后,TaskTracker会为每一个task单独创建一个jvm,然后单独运行。等Task运行完之后,TaskTracker会通知JobTracker任务完成,以进行下一步的动作。
  等到所有的Task都完成之后,Job也就完成了,此时JobTracker会通知JobClient工作完成。
3 代码详细分析
  下面从用户使用Hadoop进行MapReduce计算的过程为线索,详细介绍Task执行的细节,并对Hadoop MapReduce的主要代码进行分析。
3.1 启动Hadoop集群
  Hadoop集群的启动是通过在Master上运行start-all.sh脚本进行的。运行该脚本之后,Hadoop会配置一系列的环境变量以及其他Hadoop运行所需要的参数,然后在本机运行JobTracker和NameNode。然后通过SSH登录到所有slave机器上,启动TaskTracker和DataNode。
  因为本文只介绍HadoopMapReduce模块,所以NameNode和DataNode的相关知识不再介绍。
3.2 JobTracker启动以及Job的初始化
  org.apache.hadoop.mapred.JobTracker类实现了Hadoop MapReduce模型的JobTracker的功能,主要负责任务的接受,初始化,调度以及对TaskTracker的监控。
  JobTracker单独作为一个JVM运行,main函数就是启动JobTracker的入口函数。在main函数中,有以下两行非常重要的代码:
  startTracker(new JobConf());
  JobTracker.offerService();
  startTracker函数是一个静态函数,它调用JobTracker的构造函数生成一个JobTracker类的实例,名为result。然后,进行了一系列初始化活动,包括启动RPC server,启动内置的jetty服务器,检查是否需要重启JobTracker等。
  在JobTracker.offerService()中,调用了taskScheduler对象的start()方法。该对象是JobTracker的一个数据成员,类型为TaskScheduler。该类型的提供了一系列接口,使得JobTracker可以对所有提交的job进行初始化以及调度。但是该类型实际上是一个抽象类型,其真正的实现类型为JobQueueTaskScheduler类,所以,taskScheduler.start()方法执行的是JobQueueTaskScheduler类的start方法。
  该方法的详细代码如下:
  public synchronized void start() throwsIOException {
  //调用TaskScheduler.start()方法,实际上没有做任何事情
  super.start();
  //注册一个JobInProgressListerner监听器
  taskTrackerManager.addJobInProgressListener(jobQueueJobInProgressListener
  );
  eagerTaskInitializationListener.setTaskTrackerManager(taskTrackerManager);
  eagerTaskInitializationListener.start();
  taskTrackerManager.addJobInProgressListener(eagerTaskInitializationListener)
  }
  JobQueueTaskScheduler类的start方法主要注册了两个非常重要的监听器:jobQueueJobInProgressListener和eagerTaskInitializationListener。前者是JobQueueJobInProgressListener类的一个实例,该类以先进先出的方式维持一个JobInProgress的队列,并且监听各个JobInProgress实例在生命周期中的变化;后者是EagerTaskInitializationListener类的一个实例,该类不断监听jobInitQueue,一旦发现有新的job被提交(即有新的JobInProgress实例被加入),则立即调用该实例的initTasks方法,对job进行初始化。
  JobInProgress类的initTasks方法的主要代码如下:
  public synchronized void initTasks() throwsIOException {
  ……
  //从HDFS中读取job.split文件从而生成input splits
  String jobFile = profile.getJobFile();
  Path sysDir = newPath(this.jobtracker.getSystemDir());
  FileSystem fs = sysDir.getFileSystem(conf);
  DataInputStream splitFile =
  fs.open(newPath(conf.get("mapred.job.split.file")));
  JobClient.RawSplit[] splits;
  try {
  splits = JobClient.readSplitFile(splitFile);
  } finally {
  splitFile.close();
  }
  //map task的个数就是input split的个数
  numMapTasks = splits.length;
  //为每个map tasks生成一个TaskInProgress来处理一个input split
  maps = newTaskInProgress[numMapTasks];
  for(inti=0; i < numMapTasks; ++i) {
  inputLength += splits.getDataLength();
  maps =new TaskInProgress(jobId, jobFile,
  splits,
  jobtracker, conf, this, i);
  }
  /*
  对于map task,将其放入nonRunningMapCache,是一个Map<Node,
  List<TaskInProgress>>,也即对于map task来讲,其将会被分配到其input
  split所在的Node上。在此,Node代表一个datanode或者机架或者数据中
  心。nonRunningMapCache将在JobTracker向TaskTracker分配map task的
  时候使用。
  */
  if(numMapTasks > 0) {
  nonRunningMapCache = createCache(splits,maxLevel);
  }
  //创建reduce task
  this.reduces = new TaskInProgress[numReduceTasks];
  for (int i= 0; i < numReduceTasks; i++) {
  reduces= new TaskInProgress(jobId, jobFile,
  numMapTasks, i,
  jobtracker, conf, this);
  /*reducetask放入nonRunningReduces,其将在JobTracker向TaskTracker
  分配reduce task的时候使用。*/
  nonRunningReduces.add(reduces);
  }
  //创建两个cleanup task,一个用来清理map,一个用来清理reduce.
  cleanup =new TaskInProgress[2];
  cleanup[0]= new TaskInProgress(jobId, jobFile, splits[0],
  jobtracker, conf, this, numMapTasks);
  cleanup[0].setJobCleanupTask();
  cleanup[1]= new TaskInProgress(jobId, jobFile, numMapTasks,
  numReduceTasks, jobtracker, conf, this);
  cleanup[1].setJobCleanupTask();
  //创建两个初始化 task,一个初始化map,一个初始化reduce.
  setup =new TaskInProgress[2];
  setup[0] =new TaskInProgress(jobId, jobFile, splits[0],
  jobtracker,conf, this, numMapTasks + 1 );
  setup[0].setJobSetupTask();
  setup[1] =new TaskInProgress(jobId, jobFile, numMapTasks,
  numReduceTasks + 1, jobtracker, conf, this);
  setup[1].setJobSetupTask();
  tasksInited.set(true);//初始化完毕
  ……
  }
3.3 TaskTracker启动以及发送Heartbeat
  org.apache.hadoop.mapred.TaskTracker类实现了MapReduce模型中TaskTracker的功能。
  TaskTracker也是作为一个单独的JVM来运行的,其main函数就是TaskTracker的入口函数,当运行start-all.sh时,脚本就是通过SSH运行该函数来启动TaskTracker的。
  Main函数中最重要的语句是:
  new TaskTracker(conf).run();
  其中run函数主要调用了offerService函数:
  State offerService() throws Exception {
  longlastHeartbeat = 0;
  //TaskTracker进行是一直存在的
  while(running && !shuttingDown) {
  ……
  longnow = System.currentTimeMillis();
  //每隔一段时间就向JobTracker发送heartbeat
  longwaitTime = heartbeatInterval - (now - lastHeartbeat);
  if(waitTime > 0) {
  synchronized(finishedCount) {
  if (finishedCount[0] == 0) {
  finishedCount.wait(waitTime);
  }
  finishedCount[0] = 0;
  }
  }
  ……
  //发送Heartbeat到JobTracker,得到response
  HeartbeatResponse heartbeatResponse = transmitHeartBeat(now);
  ……
  //从Response中得到此TaskTracker需要做的事情
  TaskTrackerAction[] actions = heartbeatResponse.getActions();
  ……
  if(actions != null){
  for(TaskTrackerAction action: actions) {
  if (action instanceof LaunchTaskAction) {
  //如果是运行一个新的Task,则将Action添加到任务队列中
  addToTaskQueue((LaunchTaskAction)action);
  }else if (action instanceof CommitTaskAction) {
  CommitTaskAction commitAction = (CommitTaskAction)action;
  if (!commitResponses.contains(commitAction.getTaskID())) {
  commitResponses.add(commitAction.getTaskID());
  }
  }else {
  tasksToCleanup.put(action);
  }
  }
  }
  }
  returnState.NORMAL;
  }
  其中transmitHeartBeat函数的作用就是第2章中提到的向JobTracker发送Heartbeat。其主要逻辑如下:
  private HeartbeatResponse transmitHeartBeat(longnow) throws IOException {
  //每隔一段时间,在heartbeat中要返回给JobTracker一些统计信息
  booleansendCounters;
  if (now> (previousUpdate + COUNTER_UPDATE_INTERVAL)) {
  sendCounters = true;
  previousUpdate = now;
  }
  else {
  sendCounters = false;
  }
  ……
  //报告给JobTracker,此TaskTracker的当前状态
  if(status == null) {
  synchronized (this) {
  status = new TaskTrackerStatus(taskTrackerName, localHostname,
  httpPort,
  cloneAndResetRunningTaskStatuses(
  sendCounters),
  failures,
  maxCurrentMapTasks,
  maxCurrentReduceTasks);
  }
  }
  ……
  //当满足下面的条件的时候,此TaskTracker请求JobTracker为其分配一个新的Task来运行:
  //当前TaskTracker正在运行的map task的个数小于可以运行的map task的最大个数
  //当前TaskTracker正在运行的reduce task的个数小于可以运行的reduce task的最大个数
  booleanaskForNewTask;
  longlocalMinSpaceStart;
  synchronized (this) {
  askForNewTask = (status.countMapTasks() < maxCurrentMapTasks ||
  status.countReduceTasks() <maxCurrentReduceTasks)
  && acceptNewTasks;
  localMinSpaceStart = minSpaceStart;
  }
  ……
  //向JobTracker发送heartbeat,这是一个RPC调用
  HeartbeatResponse heartbeatResponse = jobClient.heartbeat(status,
  justStarted, askForNewTask,
  heartbeatResponseId);
  ……
  returnheartbeatResponse;
  }
3.4 JobTracker接收Heartbeat并向TaskTracker分配任务
  当JobTracker被RPC调用来发送heartbeat的时候,JobTracker的heartbeat(TaskTrackerStatus status,boolean initialContact, booleanacceptNewTasks, short responseId)函数被调用:
  public synchronized HeartbeatResponseheartbeat(TaskTrackerStatus status,
  boolean initialContact, boolean acceptNewTasks,short responseId)
  throws IOException{
  ……
  StringtrackerName = status.getTrackerName();
  ……
  shortnewResponseId = (short)(responseId + 1);
  ……
  HeartbeatResponse response = newHeartbeatResponse(newResponseId, null);
  List<TaskTrackerAction> actions = new ArrayList<TaskTrackerAction>();
  //如果TaskTracker向JobTracker请求一个task运行
  if(acceptNewTasks) {
  TaskTrackerStatus taskTrackerStatus = getTaskTracker(trackerName);
  if(taskTrackerStatus == null) {
  LOG.warn("Unknown task tracker polling; ignoring: " +trackerName);
  } else{
  //setup和cleanup的task优先级最高
  List<Task> tasks = getSetupAndCleanupTasks(taskTrackerStatus);
  if(tasks == null ) {
  //任务调度器分配任务
  tasks = taskScheduler.assignTasks(taskTrackerStatus);
  }
  if(tasks != null) {
  for(Task task : tasks) {
  //将任务放入actions列表,返回给TaskTracker
  expireLaunchingTasks.addNewTask(task.getTaskID());
  actions.add(new LaunchTaskAction(task));
  }
  }
  }
  }
  ……
  intnextInterval = getNextHeartbeatInterval();
  response.setHeartbeatInterval(nextInterval);
  response.setActions(
  actions.toArray(newTaskTrackerAction[actions.size()]));
  ……
  returnresponse;
  }
  默认的任务调度器为JobQueueTaskScheduler,其assignTasks如下:
  public synchronized List<Task>assignTasks(TaskTrackerStatus taskTracker)
  throwsIOException {
  ClusterStatus clusterStatus = taskTrackerManager.getClusterStatus();
  intnumTaskTrackers = clusterStatus.getTaskTrackers();
  Collection<JobInProgress> jobQueue
  = jobQueueJobInProgressListener.getJobQueue();
  intmaxCurrentMapTasks = taskTracker.getMaxMapTasks();
  intmaxCurrentReduceTasks = taskTracker.getMaxReduceTasks();
  intnumMaps = taskTracker.countMapTasks();
  intnumReduces = taskTracker.countReduceTasks();
  //计算剩余的map和reduce的工作量:remaining
  intremainingReduceLoad = 0;
  intremainingMapLoad = 0;
  synchronized (jobQueue) {
  for(JobInProgress job : jobQueue) {
  if(job.getStatus().getRunState() == JobStatus.RUNNING) {
  inttotalMapTasks = job.desiredMaps();
  inttotalReduceTasks = job.desiredReduces();
  remainingMapLoad += (totalMapTasks - job.finishedMaps());
  remainingReduceLoad += (totalReduceTasks -job.finishedReduces());
  }
  }
  }
  //计算平均每个TaskTracker应有的工作量,remaining/numTaskTrackers是剩余的工作量除以TaskTracker的个数。
  intmaxMapLoad = 0;
  intmaxReduceLoad = 0;
  if(numTaskTrackers > 0) {
  maxMapLoad = Math.min(maxCurrentMapTasks,
  (int)Math.ceil((double) remainingMapLoad numTaskTrackers));
  maxReduceLoad = Math.min(maxCurrentReduceTasks,
  (int)Math.ceil((double) remainingReduceLoad
  numTaskTrackers));
  }
  ……
  //map优先于reduce,当TaskTracker上运行的map task数目小于平均的工作量,则向其分配map task
  if(numMaps < maxMapLoad) {
  inttotalNeededMaps = 0;
  synchronized (jobQueue) {
  for(JobInProgress job : jobQueue) {
  if(job.getStatus().getRunState() != JobStatus.RUNNING) {
  continue;
  }
  Task t = job.obtainNewMapTask(taskTracker,numTaskTrackers,
  taskTrackerManager.getNumberOfUniqueHosts());
  if(t != null) {
  return Collections.singletonList(t);
  }
  ……
  }
  }
  }
  //分配完map task,再分配reduce task
  if(numReduces < maxReduceLoad) {
  inttotalNeededReduces = 0;
  synchronized (jobQueue) {
  for(JobInProgress job : jobQueue) {
  if(job.getStatus().getRunState() != JobStatus.RUNNING ||
  job.numReduceTasks == 0) {
  continue;
  }
  Task t = job.obtainNewReduceTask(taskTracker, numTaskTrackers,
  taskTrackerManager.getNumberOfUniqueHosts());
  if(t != null) {
  return Collections.singletonList(t);
  }
  ……
  }
  }
  }
  returnnull;
  }
  从上面的代码中我们可以知道,JobInProgress的obtainNewMapTask是用来分配map task的,其主要调用findNewMapTask,根据TaskTracker所在的Node从nonRunningMapCache中查找TaskInProgress。JobInProgress的obtainNewReduceTask是用来分配reduce task的,其主要调用findNewReduceTask,从nonRunningReduces查找TaskInProgress。
3.5 TaskTracker接收HeartbeatResponse
  在向JobTracker发送heartbeat后,如果返回的reponse中含有分配好的任务LaunchTaskAction,TaskTracker则调用addToTaskQueue方法,将其加入TaskTracker类中MapLauncher或者ReduceLauncher对象的taskToLaunch队列。在此,MapLauncher和ReduceLauncher对象均为TaskLauncher类的实例。该类是TaskTracker类的一个内部类,具有一个数据成员,是TaskTracker.TaskInProgress类型的队列。在此特别注意,在TaskTracker类内部所提到的TaskInProgress类均为TaskTracker的内部类,我们用TaskTracker.TaskInProgress表示,一定要和MapRed包中的TaskInProgress类区分,后者我们直接用TaskInProgress表示。如果应答包中包含的任务是maptask则放入mapLancher的taskToLaunch队列,如果是reduce task则放入reduceLancher的taskToLaunch队列:
  private void addToTaskQueue(LaunchTaskActionaction) {
  if(action.getTask().isMapTask()) {
  mapLauncher.addToTaskQueue(action);
  } else {
  reduceLauncher.addToTaskQueue(action);
  }
  }
  TaskLauncher类的addToTaskQueue方法代码如下:
  private TaskInProgress registerTask(LaunchTaskAction action,
  TaskLauncher launcher) {
  //从action中获取Task对象
  Task t = action.getTask();
  LOG.info("LaunchTaskAction(registerTask): " + t.getTaskID() +
  " task's state:" + t.getState());
  //生成TaskTracker.TaskInProgress对象
  TaskInProgress tip = new TaskInProgress(t, this.fConf, launcher);
  synchronized(this){
  /*在相应的数据结构中增加所生成的TaskTracker.TaskInProgress对
  象,以通知程序其他部分该任务的建立*/
  tasks.put(t.getTaskID(),tip);
  runningTasks.put(t.getTaskID(),tip);
  boolean isMap =t.isMapTask();
  if (isMap) {
  mapTotal++;
  } else {
  reduceTotal++;
  }
  }
  return tip;
  }
  同时,TaskLauncher类继承了Thread类,所以在程序运行过程中,它们各自都以一个线程独立运行。它们的启动在TaskTracker初始化过程中已经完成。该类的run函数就是不断监测taskToLaunch队列中是否有新的TaskTracker.TaskInProgress对象加入。如果有则从中取出一个对象,然后调用TaskTracker类的startNewTask(TaskInProgress tip)来启动一个task,其又主要调用了localizeJob(TaskInProgresstip),该函数的工作就是第二节中提到的本地化。该函数代码如下:
  private void localizeJob(TaskInProgress tip)throws IOException {
  //首先要做的一件事情是有关Task的文件从HDFS拷贝的TaskTracker的本地文件系统中:job.split,job.xml以及job.jar
  PathlocalJarFile = null;
  Task t =tip.getTask();
  JobIDjobId = t.getJobID();
  PathjobFile = new Path(t.getJobFile());
  ……
  PathlocalJobFile = lDirAlloc.getLocalPathForWrite(
  getLocalJobDir(jobId.toString())
  + Path.SEPARATOR + "job.xml",
  jobFileSize, fConf);
  RunningJob rjob = addTaskToJob(jobId, tip);
  synchronized (rjob) {
  if(!rjob.localized) {
  FileSystem localFs = FileSystem.getLocal(fConf);
  PathjobDir = localJobFile.getParent();
  ……
  //将job.split拷贝到本地
  systemFS.copyToLocalFile(jobFile, localJobFile);
  JobConf localJobConf = new JobConf(localJobFile);
  PathworkDir = lDirAlloc.getLocalPathForWrite(
  (getLocalJobDir(jobId.toString())
  + Path.SEPARATOR +"work"), fConf);
  if(!localFs.mkdirs(workDir)) {
  throw new IOException("Mkdirs failed to create "
  + workDir.toString());
  }
  System.setProperty("job.local.dir", workDir.toString());
  localJobConf.set("job.local.dir", workDir.toString());
  //copy Jar file to the local FS and unjar it.
  String jarFile = localJobConf.getJar();
  longjarFileSize = -1;
  if(jarFile != null) {
  Path jarFilePath = new Path(jarFile);
  localJarFile = new Path(lDirAlloc.getLocalPathForWrite(
  getLocalJobDir(jobId.toString())
  +Path.SEPARATOR + "jars",
  5 *jarFileSize, fConf), "job.jar");
  if(!localFs.mkdirs(localJarFile.getParent())) {
  throw new IOException("Mkdirs failed to create jars directory");
  }
  //将job.jar拷贝到本地
  systemFS.copyToLocalFile(jarFilePath, localJarFile);
  localJobConf.setJar(localJarFile.toString());
  //将job得configuration写成job.xml
  OutputStream out = localFs.create(localJobFile);
  try{
  localJobConf.writeXml(out);
  }finally {
  out.close();
  }
  // 解压缩job.jar
  RunJar.unJar(new File(localJarFile.toString()),
  newFile(localJarFile.getParent().toString()));
  }
  rjob.localized = true;
  rjob.jobConf = localJobConf;
  }
  }
  //真正的启动此Task
  launchTaskForJob(tip, new JobConf(rjob.jobConf));
  }
  当所有的task运行所需要的资源都拷贝到本地后,则调用TaskTracker的launchTaskForJob方法,其又调用TaskTracker.TaskInProgress的launchTask函数:
  public synchronized void launchTask() throwsIOException {
  ……
  //创建task运行目录
  localizeTask(task);
  if(this.taskStatus.getRunState() == TaskStatus.State.UNASSIGNED) {
  this.taskStatus.setRunState(TaskStatus.State.RUNNING);
  }
  //创建并启动TaskRunner,对于MapTask,创建的是MapTaskRunner,对于ReduceTask,创建的是ReduceTaskRunner
  this.runner = task.createRunner(TaskTracker.this, this);
  this.runner.start();
  this.taskStatus.setStartTime(System.currentTimeMillis());
  }
  TaskRunner是抽象类,是Thread类的子类,其run函数如下:
  public final void run() {
  ……
  TaskAttemptID taskid = t.getTaskID();
  LocalDirAllocator lDirAlloc = newLocalDirAllocator("mapred.local.dir");
  FilejobCacheDir = null;
  if(conf.getJar() != null) {
  jobCacheDir = new File(
  newPath(conf.getJar()).getParent().toString());
  }
  File workDir = newFile(lDirAlloc.getLocalPathToRead(
  TaskTracker.getLocalTaskDir(
  t.getJobID().toString(),
  t.getTaskID().toString(),
  t.isTaskCleanupTask())
  + Path.SEPARATOR + MRConstants.WORKDIR,
  conf).toString());
  FileSystem fileSystem;
  PathlocalPath;
  ……
  //拼写classpath
  StringbaseDir;
  Stringsep = System.getProperty("path.separator");
  StringBuffer classPath = new StringBuffer();
  //start with same classpath as parent process
  classPath.append(System.getProperty("java.class.path"));
  classPath.append(sep);
  if(!workDir.mkdirs()) {
  if(!workDir.isDirectory()) {
  LOG.fatal("Mkdirs failed to create " + workDir.toString());
  }
  }
  Stringjar = conf.getJar();
  if (jar!= null) {
  // ifjar exists, it into workDir
  File[] libs = new File(jobCacheDir, "lib").listFiles();
  if(libs != null) {
  for(int i = 0; i < libs.length; i++) {
  classPath.append(sep); //add libs from jar to classpath
  classPath.append(libs);
  }
  }
  classPath.append(sep);
  classPath.append(new File(jobCacheDir, "classes"));
  classPath.append(sep);
  classPath.append(jobCacheDir);
  }
  ……
  classPath.append(sep);
  classPath.append(workDir);
  //拼写命令行java及其参数
  Vector<String> vargs = new Vector<String>(8);
  Filejvm =
  newFile(new File(System.getProperty("java.home"), "bin"),"java");
  vargs.add(jvm.toString());
  StringjavaOpts = conf.get("mapred.child.java.opts", "-Xmx200m");
  javaOpts = javaOpts.replace("@taskid@", taskid.toString());
  String[] javaOptsSplit = javaOpts.split(" ");
  StringlibraryPath = System.getProperty("java.library.path");
  if(libraryPath == null) {
  libraryPath = workDir.getAbsolutePath();
  } else{
  libraryPath += sep + workDir;
  }
  booleanhasUserLDPath = false;
  for(inti=0; i<javaOptsSplit.length ;i++) {
  if(javaOptsSplit.startsWith("-Djava.library.path=")) {
  javaOptsSplit += sep + libraryPath;
  hasUserLDPath = true;
  break;
  }
  }
  if(!hasUserLDPath) {
  vargs.add("-Djava.library.path=" + libraryPath);
  }
  for(int i = 0; i < javaOptsSplit.length; i++) {
  vargs.add(javaOptsSplit);
  }
  //添加Child进程的临时文件夹
  Stringtmp = conf.get("mapred.child.tmp", "./tmp");
  PathtmpDir = new Path(tmp);
  if(!tmpDir.isAbsolute()) {
  tmpDir = new Path(workDir.toString(), tmp);
  }
  FileSystem localFs = FileSystem.getLocal(conf);
  if(!localFs.mkdirs(tmpDir) && !localFs.getFileStatus(tmpDir).isDir()) {
  thrownew IOException("Mkdirs failed to create " + tmpDir.toString());
  }
  vargs.add("-Djava.io.tmpdir=" + tmpDir.toString());
  // Addclasspath.
  vargs.add("-classpath");
  vargs.add(classPath.toString());
  //log文件夹
  longlogSize = TaskLog.getTaskLogLength(conf);
  vargs.add("-Dhadoop.log.dir=" +
  newFile(System.getProperty("hadoop.log.dir")
  ).getAbsolutePath());
  vargs.add("-Dhadoop.root.logger=INFO,TLA");
  vargs.add("-Dhadoop.tasklog.taskid=" + taskid);
  vargs.add("-Dhadoop.tasklog.totalLogFileSize=" + logSize);
  // 运行map task和reduce task的子进程的main class是Child
  vargs.add(Child.class.getName());// main of Child
  ……
  //运行子进程
  jvmManager.launchJvm(this,
  jvmManager.constructJvmEnv(setup,vargs,stdout,stderr,logSize,
  workDir, env, pidFile, conf));
  }
  在程序运行过程中,实际运行的TaskRunner实例应该是MapTaskRunner或者是ReduceTaskRunner。这两个子类只对TaskRunner进行了简单修改,在此不做赘述。
  在jvmManager.launchJvm()方法中,程序将创建一个新的jvm,来执行新的程序。
3.6 MapReduce任务的运行
  真正的map task和reduce task都是在Child进程中运行的,Child的main函数的主要逻辑如下:
  while (true) {
  //从TaskTracker通过网络通信得到JvmTask对象
  JvmTaskmyTask = umbilical.getTask(jvmId);
  ……
  idleLoopCount = 0;
  task =myTask.getTask();
  taskid =task.getTaskID();
  isCleanup= task.isTaskCleanupTask();
  JobConfjob = new JobConf(task.getJobFile());
  TaskRunner.setupWorkDir(job);
  numTasksToExecute = job.getNumTasksToExecutePerJvm();
  task.setConf(job);
  defaultConf.addResource(newPath(task.getJobFile()));
  ……
  //运行task
  task.run(job, umbilical);// run the task
  if(numTasksToExecute > 0 && ++numTasksExecuted ==
  numTasksToExecute){
  break;
  }
  }
3.6.1 MapTask的运行
3.6.1.1 MapTask.run()方法
  如果task是MapTask,则其run函数如下:
  public void run(final JobConf job, finalTaskUmbilicalProtocol umbilical)
  throws IOException,ClassNotFoundException, InterruptedException {
  //负责与TaskTracker的通信,通过该对象可以获得必要的对象
  this.umbilical = umbilical;
  // 启动Reporter线程,用来和TaskTracker交互目前运行的状态
  TaskReporter reporter = new TaskReporter(getProgress(), umbilical);
  reporter.startCommunicationThread();
  boolean useNewApi =job.getUseNewMapper();
  /*用来初始化任务,主要是进行一些和任务输出相关的设置,比如创
  建commiter,设置工作目录等*/
  initialize(job, getJobID(),reporter, useNewApi);
  /*以下4个if语句均是根据任务类型的不同进行相应的操作,这些方
  法均是Task类的方法,所以与任务是MapTask还是ReduceTask无关*/
  if(jobCleanup) {
  runJobCleanupTask(umbilical,reporter);
  return;
  }
  if(jobSetup) {
  //主要是创建工作目录的FileSystem对象
  runJobSetupTask(umbilical,reporter);
  return;
  }
  if(taskCleanup) {
  //设置任务目前所处的阶段为结束阶段,并且删除工作目录
  runTaskCleanupTask(umbilical,reporter);
  return;
  }
  //如果不是上述四种类型,则真正运行任务
  if (useNewApi) {
  runNewMapper(job, split, umbilical,reporter);
  } else {
  runOldMapper(job, split, umbilical, reporter);
  }
  done(umbilical, reporter);
  }
3.6.1.2 MapTask.runNewMapper()方法
  其中,我们只研究运用新API编写程序的情况,所以runOldMapper函数我们将不做考虑。runNewMapper的代码如下:
  private <INKEY,INVALUE,OUTKEY,OUTVALUE>
  voidrunNewMapper(
  final JobConf job,
  final BytesWritable rawSplit,
  final TaskUmbilicalProtocol umbilical,
  TaskReporter reporter
  ) throws IOException, ClassNotFoundException, InterruptedException{
  /*TaskAttemptContext类继承于JobContext类,相对于JobContext类增加
  了一些有关task的信息。通过taskContext对象可以获得很多与任务执行相
  关的类,比如用户定义的Mapper类,InputFormat类等等*/
  org.apache.hadoop.mapreduce.TaskAttemptContexttaskContext =
  new org.apache.hadoop.mapreduce.TaskAttemptContext(job,getTaskID());
  //创建用户自定义的Mapper类的实例
  org.apache.hadoop.mapreduce.Mapper
  <INKEY,INVALUE,OUTKEY,OUTVALUE> mapper=
  org.apache.hadoop.mapreduce.Mapper<INKEY,INVALUE,OUTKEY,OUTVALUE>) ReflectionUtils.newInstance(taskContext.getMapperClass(),job);
  // 创建用户指定的InputFormat类的实例
  org.apache.hadoop.mapreduce.InputFormat<INKEY,INVALUE> inputFormat=(org.apache.hadoop.mapreduce.InputFormat<INKEY,INVALUE>)
  ReflectionUtils.newInstance(taskContext.getInputFormatClass(),job);
  // 重新生成InputSplit
  org.apache.hadoop.mapreduce.InputSplit split =null;
  DataInputBuffer splitBuffer =new DataInputBuffer();
  splitBuffer.reset(rawSplit.getBytes(), 0, rawSplit.getLength());
  SerializationFactory factory =new SerializationFactory(job);
  Deserializer<? extendsorg.apache.hadoop.mapreduce.InputSplit>
  deserializer =
  (Deserializer<? extendsorg.apache.hadoop.mapreduce.InputSplit>)
  factory.getDeserializer(job.getClassByName(splitClass));
  deserializer.open(splitBuffer);
  split =deserializer.deserialize(null);
  //根据InputFormat对象创建RecordReader对象,默认是LineRecordReader
  org.apache.hadoop.mapreduce.RecordReader<INKEY,INVALUE> input =
  new NewTrackingRecordReader<INKEY,INVALUE>
  (inputFormat.createRecordReader(split, taskContext), reporter);
  job.setBoolean("mapred.skip.on", isSkipping());
  //生成RecordWriter对象
  org.apache.hadoop.mapreduce.RecordWriter output = null;
  org.apache.hadoop.mapreduce.Mapper<INKEY,INVALUE,OUTKEY,OUTVALUE>.Context mapperContext = null;
  try {
  Constructor<org.apache.hadoop.mapreduce.Mapper.Context>
  contextConstructor =
  org.apache.hadoop.mapreduce.Mapper.Context.class.getConstructor
  (newClass[]{org.apache.hadoop.mapreduce.Mapper.class,
  Configuration.class,
  org.apache.hadoop.mapreduce.TaskAttemptID.class,
  org.apache.hadoop.mapreduce.RecordReader.class,
  org.apache.hadoop.mapreduce.RecordWriter.class,
  org.apache.hadoop.mapreduce.OutputCommitter.class,
  org.apache.hadoop.mapreduce.StatusReporter.class,
  org.apache.hadoop.mapreduce.InputSplit.class});
  //get an output object
  if(job.getNumReduceTasks() == 0) {
  output = newNewDirectOutputCollector(taskContext, job,
  umbilical, reporter);
  } else{
  output = new NewOutputCollector(taskContext, job, umbilical,
  reporter);
  }
  mapperContext = contextConstructor.newInstance(mapper, job,
  getTaskID(), input, output, committer, reporter, split);
  /*初始化,在默认情况下调用的是LineRecordReader的initialize方
  法,主要是打开输入文件并且将文件指针指向文件头*/
  input.initialize(split, mapperContext);
  mapper.run(mapperContext); //运行真正的Mapper类
  input.close();
  output.close(mapperContext);
  } catch(NoSuchMethodException e) {
  thrownew IOException("Can't find Context constructor", e);
  } catch(InstantiationException e) {
  thrownew IOException("Can't create Context", e);
  } catch(InvocationTargetException e) {
  thrownew IOException("Can't invoke Context constructor", e);
  } catch(IllegalAccessException e) {
  thrownew IOException("Can't invoke Context constructor", e);
  }
  }
3.6.1.3 Mapper.run()方法
  其中mapper.run方法调用的是Mapper类的run方法。这也是用户要实现map方法所需要继承的类。该类的run方法代码如下:
  public void run(Context context) throws IOException, InterruptedException{
  setup(context);
  while (context.nextKeyValue()){
  map(context.getCurrentKey(),context.getCurrentValue(), context);
  }
  cleanup(context);
  }
  该方法首先调用了setup方法,这个方法在Mapper当中实际上是什么也没有做。用户可重写此方法让程序在执行map函数之前进行一些其他操作。然后,程序将不断获取键值对交给map函数处理,也就是用户所希望进行的操作。之后,程序调用cleanup函数。这个方法和setup一样,也是Mapper类的一个方法,但是实际上什么也没有做。用户可以重写此方法进行一些收尾工作。
3.6.1.4 Map任务执行序列图
DSC0001.gif

图 Map任务执行序列图
3.6.2 ReduceTask的运行
3.6.2.1 ReduceTask.run()方法
  如果运行的任务是ReduceTask,则其run函数如下:
  public void run(JobConfjob, final TaskUmbilicalProtocol umbilical)
  throws IOException,InterruptedException, ClassNotFoundException {
  this.umbilical = umbilical;
  job.setBoolean("mapred.skip.on", isSkipping());
  /*添加reduce过程需要经过的几个阶段。以便通知TaskTracker目前运
  行的情况*/
  if (isMapOrReduce()) {
  copyPhase =getProgress().addPhase("copy");
  sortPhase = getProgress().addPhase("sort");
  reducePhase =getProgress().addPhase("reduce");
  }
  // 设置并启动reporter进程以便和TaskTracker进行交流
  TaskReporter reporter = newTaskReporter(getProgress(), umbilical);
  reporter.startCommunicationThread();
  boolean useNewApi =job.getUseNewReducer();
  /*用来初始化任务,主要是进行一些和任务输出相关的设置,比如创
  建commiter,设置工作目录等*/
  initialize(job, getJobID(), reporter,useNewApi);
  /*以下4个if语句均是根据任务类型的不同进行相应的操作,这些方
  法均是Task类的方法,所以与任务是MapTask还是ReduceTask无关*/
  if(jobCleanup) {
  runJobCleanupTask(umbilical, reporter);
  return;
  }
  if(jobSetup) {
  //主要是创建工作目录的FileSystem对象
  runJobSetupTask(umbilical, reporter);
  return;
  }
  if(taskCleanup) {
  //设置任务目前所处的阶段为结束阶段,并且删除工作目录
  runTaskCleanupTask(umbilical, reporter);
  return;
  }
  //Initialize the codec
  codec =initCodec();
  boolean isLocal ="local".equals(job.get("mapred.job.tracker","local"));
  if (!isLocal) {
  //ReduceCopier对象负责将Map函数的输出拷贝至Reduce所在机器
  reduceCopier = newReduceCopier(umbilical, job, reporter);
  //fetchOutputs函数负责拷贝各个Map函数的输出
  if (!reduceCopier.fetchOutputs()){
  if(reduceCopier.mergeThrowable instanceof FSError) {
  throw(FSError)reduceCopier.mergeThrowable;
  }
  throw newIOException("Task: " + getTaskID() +
  " - The reducecopier failed", reduceCopier.mergeThrowable);
  }
  }
  copyPhase.complete(); // copy is already complete
  setPhase(TaskStatus.Phase.SORT);
  statusUpdate(umbilical);
  final FileSystem rfs =FileSystem.getLocal(job).getRaw();
  //根据JobTracker是否在本地来决定调用哪种排序方式
  RawKeyValueIterator rIter =isLocal
  ? Merger.merge(job, rfs,job.getMapOutputKeyClass(),
  job.getMapOutputValueClass(), codec, getMapFiles(rfs, true),
  !conf.getKeepFailedTaskFiles(), job.getInt("io.sort.factor",100),
  newPath(getTaskID().toString()), job.getOutputKeyComparator(),
  reporter,spilledRecordsCounter, null)
  :reduceCopier.createKVIterator(job, rfs, reporter);
  // free up the data structures
  mapOutputFilesOnDisk.clear();
  sortPhase.complete(); // sort is complete
  setPhase(TaskStatus.Phase.REDUCE);
  statusUpdate(umbilical);
  Class keyClass =job.getMapOutputKeyClass();
  Class valueClass =job.getMapOutputValueClass();
  RawComparator comparator =job.getOutputValueGroupingComparator();
  if (useNewApi) {
  runNewReducer(job, umbilical,reporter, rIter, comparator,
  keyClass,valueClass);
  } else {
  runOldReducer(job, umbilical,reporter, rIter, comparator,
  keyClass,valueClass);
  }
  done(umbilical, reporter);
  }
3.6.2.2 ReduceTask.runNewReducer()方法
  同样,在此我们只考虑当用户用新的API编写程序时的情况。所以我们只关注runNewReducer方法,其代码如下:
  private <INKEY,INVALUE,OUTKEY,OUTVALUE>
  void runNewReducer(JobConfjob,
  finalTaskUmbilicalProtocol umbilical,
  final TaskReporterreporter,
  RawKeyValueIterator rIter,
  RawComparator<INKEY>comparator,
  Class<INKEY>keyClass,
  Class<INVALUE>valueClass
  ) throwsIOException,InterruptedException,
  ClassNotFoundException {
  // wrapvalue iterator to report progress.
  finalRawKeyValueIterator rawIter = rIter;
  rIter =new RawKeyValueIterator() {
  public void close() throws IOException {
  rawIter.close();
  }
  public DataInputBuffer getKey() throws IOException {
  return rawIter.getKey();
  }
  public Progress getProgress() {
  return rawIter.getProgress();
  }
  public DataInputBuffer getValue() throws IOException {
  return rawIter.getValue();
  }
  public boolean next() throws IOException {
  boolean ret = rawIter.next();
  reducePhase.set(rawIter.getProgress().get());
  reporter.progress();
  return ret;
  }
  };
  /*TaskAttemptContext类继承于JobContext类,相对于JobContext类增加
  了一些有关task的信息。通过taskContext对象可以获得很多与任务执行相
  关的类,比如用户定义的Mapper类,InputFormat类等等*/
  org.apache.hadoop.mapreduce.TaskAttemptContexttaskContext =
  neworg.apache.hadoop.mapreduce.TaskAttemptContext(job, getTaskID());
  //创建用户定义的Reduce类的实例
  org.apache.hadoop.mapreduce.Reducer
  <INKEY,INVALUE,OUTKEY,OUTVALUE>reducer =
  (org.apache.hadoop.mapreduce.Reducer
  <INKEY,INVALUE,OUTKEY,OUTVALUE>)
  ReflectionUtils.newInstance(taskContext.getReducerClass(), job);
  //创建用户指定的RecordWriter
  org.apache.hadoop.mapreduce.RecordWriter
  <OUTKEY,OUTVALUE> output =
  (org.apache.hadoop.mapreduce.RecordWriter<OUTKEY,OUTVALUE>)
  outputFormat.getRecordWriter(taskContext);
  org.apache.hadoop.mapreduce.RecordWriter<OUTKEY,OUTVALUE>
  trackedRW =
  new NewTrackingRecordWriter<OUTKEY,OUTVALUE>
  (output, reduceOutputCounter);
  job.setBoolean("mapred.skip.on", isSkipping());
  org.apache.hadoop.mapreduce.Reducer.Context
  reducerContext = createReduceContext(reducer, job, getTaskID(),
  rIter,reduceInputKeyCounter,
  reduceInputValueCounter,
  trackedRW, committer,
  reporter, comparator, keyClass,
  valueClass);
  reducer.run(reducerContext);
  output.close(reducerContext);
  }
3.6.2.3 reducer.run()方法
  其中,reducer的run函数如下:
  public void run(Context context) throws IOException, InterruptedException{
  setup(context);
  while (context.nextKey()) {
  reduce(context.getCurrentKey(), context.getValues(), context);
  }
  cleanup(context);
  }
  该函数先调用setup函数,该函数默认是什么都不做,但是用户可以通过重写此函数来在运行reduce函数之前做一些初始化工作。然后程序会不断读取输入数据,交给reduce函数处理。这里的reduce函数就是用户所写的reduce函数。最后调用cleanup函数。默认的cleanup函数是没有做任何事情,但是用户可以通过重写此函数来进行一些收尾工作。
3.6.2.4 Reduce任务执行序列图
DSC0002.gif

  图 Reduce任务执行序列图

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-312702-1-1.html 上篇帖子: 《用 Hadoop 进行分布式并行编程, 第 2 部分——程序实例与分析》笔记 下篇帖子: 研究hadoop分布式计算平台及三台服务器的实现
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表