（第4篇）hadoop之魂--mapreduce计算框架，让收集的数据产生价值

吸毒的虫子 · 发表于 2018-10-29 09:00:11

　　通过前面的学习，大家已经了解了HDFS文件系统。有了数据，下一步就要分析计算这些数据，产生价值。接下来我们介绍Mapreduce计算框架，学习数据是怎样被利用的。
　　Mapreduce计算框架
　　如果将Hadoop比做一头大象，那么MapReduce就是那头大象的电脑。MapReduce是Hadoop核心编程模型。在Hadoop中，数据处理核心就是MapReduce程序设计模型。
　　本章内容：
　　1) MapReduce编程模型
　　2) MapReduce执行流程
　　3) MapReduce数据本地化
　　4) MapReduce工作原理
　　5) MapReduce错误处理机制
1. MapReduce编程模型
　　Map和Reduce的概念是从函数式变成语言中借来的，整个MapReduce计算过程分为Map阶段和Reduce阶段，也称为映射和缩减阶段，这两个独立的阶段实际上是两个独立的过程，即Map过程和Reduce过程，在Map中进行数据的读取和预处理，之后将预处理的结果发送到Reduce中进行合并。
　　我们通过一个代码案例，让大家快速熟悉如何通过代码，快速实现一个我们自己的MapReduce。
　　案例：分布式计算出一篇文章中的各个单词出现的次数，也就是WordCount。
　　1) 创建map.py文件，写入以下代码：
　　#!/usr/bin/env python
　　import sys
　　word_list = []
　　for line in sys.stdin:
　　word_list = line.strip().split(' ')
　　if len(word_list)

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] （第4篇）hadoop之魂--mapreduce计算框架，让收集的数据产生价值

扫码加入运维网微信交流群