设为首页 收藏本站
查看: 688|回复: 0

[经验分享] Hadoop The Definitive Guide 2nd Edition 读书笔记1

[复制链接]

尚未签到

发表于 2016-12-9 09:24:10 | 显示全部楼层 |阅读模式
Hadoop The Definitive Guide 2nd Edition是我读的关于hadoop的第一本书,对于处于新手阶段的我,这本书对我的帮助很大,这本书从hadoop的起源开始逐步讲解hadoop,可能是因为作者也是hadoop项目中的一个成员吧,对于hadoop讲解的十分到位。好记性不如烂笔头,今天开始做些笔记,方便日后查看。
第一章主要介绍了Hadoop的起源和一些其他分布式系统的比较,也介绍了hadoop的发展事记。现在随着云计算的发展,hadoop异常火爆,就拿我这段时间应聘的公司来说,不管是知名的互联网企业还是国企研究所,基本上每个公司都会有类似的描述“熟悉海量数据处理者优先,熟悉Hadoop类系统者优先”,可见Hadoop确实很实用。这也是我为什么将学习hadoop来作为学习云计算的第一步。
第二章简单的介绍了hadoop中mapreduce的基本概念和工作原理,并用一个气象数据分析的例子来说明。关于这个例子的数据可以从ftp://ftp.ncdc.noaa.gov/pub/data/gsod/下载。观察下载的数据,发现格式有个很大的变化,所以必须修改书上的程序才能得到正确的结果。修改方法如下:
将下载数据解压,选择一个文件作为输入来进行测试,文件的第一行不是数据,所以要删除,将文件名字改成1.txt,上传到HDFS中,可以用eclipse直接上传:
DSC0000.png
编写mapper和reducer:
package hadoop.chapter2;
import java.io.IOException;
import org.apache.hadoop.io.DoubleWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
public class MaxTemperatureMapper
extends Mapper<LongWritable, Text, Text, DoubleWritable> {
private static final double MISSING = 99.9;
@Override
protected void map(LongWritable key, Text value,
Context context)
throws IOException, InterruptedException {
String line = value.toString();
String year = line.substring(14, 18);
double airTemperature = Double.parseDouble(line.substring(104, 108));
if (airTemperature != MISSING) {
context.write(new Text(year), new DoubleWritable(airTemperature));
}
}
}

package hadoop.chapter2;
import java.io.IOException;
import org.apache.hadoop.io.DoubleWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
public class MaxTemperatureReducer
extends Reducer<Text, DoubleWritable, Text, DoubleWritable> {
@Override
protected void reduce(Text key, Iterable<DoubleWritable> values,
Context context)
throws IOException, InterruptedException {
double maxValue = Double.MIN_VALUE;
for (DoubleWritable value : values) {
maxValue = Math.max(maxValue, value.get());
}
context.write(key, new DoubleWritable(maxValue));
}

}

package hadoop.chapter2;
import java.io.IOException;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.DoubleWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
public class MaxTemperature {
public static void main(String[] args) {
if (args.length != 2) {
System.err.println("参数错误");
System.exit(-1);
}
try {
Job job = new Job();
job.setJarByClass(MaxTemperature.class);
FileInputFormat.addInputPath(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));
job.setMapperClass(MaxTemperatureMapper.class);
job.setReducerClass(MaxTemperatureReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(DoubleWritable.class);
job.waitForCompletion(true);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (InterruptedException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (ClassNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}


代码编写完了,就可以运行了。首先要修改运行参数:
DSC0001.png
然后就可以运行拉,运行之后的结果会保存在output中,我们查看一下:

DSC0002.png

之后介绍了mapreduce分布化的工作过程:
先了解一些基本概念:
Job:客户端的执行单位,它包括输入数据、MapReduce程序和配置信息。
Task:Hadoop将输入数据分解成若干个Split,然后针对每个Split进行MapReduce操作,针对每一个split的操作称为一个task。
JobTracker:MapReduce系统的大脑,调度任务在tasktracker上执行。
TaskTracker:干活的小弟,负责task的执行,并将进度报告给老大JobTracker。
Hadoop将输入数据分解成split,然后为每个split创建一个map任务,在taskttracke上执行。Split分片的大小默认是64MB,是跟HDFS默认块大小相等。这样规定两者相等并不是巧合,而是考虑到数据处理局部行优化。就是说尽量保证每一个map任务执行所需要的数据存储在本地,这样数据的读取就不用通过网络传输,不但提高处理速度,而且降低整个系统的网络负载。如果Split的大小大于HDFS块大小,那么会以两个或多个快的形式存放在HDFS中,对于一个HDFS节点来说,基本不可能同时存放着两个块,因此必须通过网络传输获得所有的输入数据。
map任务将结果写到本地磁盘,并不存储在HDFS中,这是因为map的结果是中间结果,如果存到HDFS中,会复制成三份,对于中间结果没有必要这样做。
reduce任务的数量不是由输入数据决定的,而是人为制定的。
有多个reducer的情况下,每一个map的结果默认会按key进行分区和排序,分区的数量当然是等于reducer的数量,如果定义了combiner函数,会执行combiner函数对map的结果进行合并,map任务结束后,不同的分区会传送到不同的reducer上,这就是混洗的过程。
第二章其他内容是介绍不同的编程语言和与hadoop交互了,比如ruby,C++,python等,这部分我并不是很关心,没仔细看,以后用到在查,呵呵,好了前两章的笔记就是这样了:)

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-311770-1-1.html 上篇帖子: hadoop怎么读?怎么发音 下篇帖子: hadoop :java.lang.UnsupportedOperationException: This parser does not support..
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表