Apache Nutch 1.3 学习笔记六（ParseSegment）

zsyzhou · 发表于 2015-7-30 15:58:50

　　
1. bin/nutch parse
　　这个命令主要是用来解析抓取的内容，对其进行外链接分析，计算分数等操作，这个解析在抓取的时候就可以设置是否进行，如果在抓取的时候没有设置解析抓取的网页内容，那这边可以单独用一个Map-Reduce任务来做。
后面的参数为：Usage: ParseSegment segment
这里是一个segment的目录名

2. ParseSegment源代码分析
2.1 任务的启动
　　ParseSegment任务的启动也是用一个Map-Reduce任务的，下面是它的源代码
　　

// 配置一个Job
JobConf job = new NutchJob(getConf());
job.setJobName("parse " + segment);
// add content directory to FileInputFormat path
// 把segment目录下的content目录加入输入路径中
FileInputFormat.addInputPath(job, new Path(segment, Content.DIR_NAME));
job.set(Nutch.SEGMENT_NAME_KEY, segment.getName());
// set input format
// 设置输入格式
job.setInputFormat(SequenceFileInputFormat.class);
// 设置Map-Reduce方法
job.setMapperClass(ParseSegment.class);
job.setReducerClass(ParseSegment.class);
// 设置输出路径
FileOutputFormat.setOutputPath(job, segment);
// Parse Output Format to output
// 设置输出格式
job.setOutputFormat(ParseOutputFormat.class);
// 设置输出的类型
job.setOutputKeyClass(Text.class);
// NOTE：这里注意一下，输出的value为ParseImpl，而ParseOutputFormat的输出为Parse，
// 这里的ParseImpl是实现Parse接口的，是is-a的关系
job.setOutputValueClass(ParseImpl.class);
JobClient.runJob(job);

　　
2.2 ParseSegment类中的Map与Reduce分析
　　这个类主要是用来分析content中的内容，它实现了Mapper与Reducer接口
在Mapper中，主要是对content内容进行调用相应的插件进行解析，产生一个ParseResult，再遍历这个ParseResult,把其中解析出来的内容collect出去。这个ParseResult是一个收集解析结果的容器，其元素为对，这里解析可能产生多个这样的输出元素对，因为这里可能有多个内容与原url进行关联，所以就有可能产生多个输出
这里的Reduce很有趣，只是收集第一个对，还不知道是为什么，可能是因为它认为第一个的权重最大吧。如果有谁知道的，请告诉我一下。

2.3 ParseOutputFormat的分析
　　我们知道，在写关于Map-Reduce的时候，有时我们想自己控制输出的源，这里你就要实现其架构提供的OutputFormat，前提是你没有找到合适的输出方法，因为Hadoop框架提出了几个常用的OutputFormat方法。
在实现的OutputFormat接口，主要是实现一个叫getRecordWriter，这个方法返回一个自定义的RecordWriter的子类，用用于写出Reducer的输出对，注意一下，在Hadoop架构中，一个也叫一条记录。

下面我们来分析一下这个getReocrdWriter方法，源代码如下：
呵呵，不要被吓到，一步步分析，老外的代码还是很好看的
　　

public RecordWriter getRecordWriter(FileSystem fs, JobConf job,
String name, Progressable progress) throws IOException {
// 这里根据配置生成一个url过滤器
this.filters = new URLFilters(job);
// 这里生成一个url的规格化对象
this.normalizers = new URLNormalizers(job, URLNormalizers.SCOPE_OUTLINK);
// 这里生成一个分数计算器
this.scfilters = new ScoringFilters(job);
// 配置url的抓取间隔
final int interval = job.getInt("db.fetch.interval.default", 2592000);
// 得到是否要解析外链接
final boolean ignoreExternalLinks = job.getBoolean("db.ignore.external.links", false);
// 得到每一个网页外链接的解析个数,默认是100个，
int maxOutlinksPerPage = job.getInt("db.max.outlinks.per.page", 100);
final int maxOutlinks = (maxOutlinksPerPage

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] Apache Nutch 1.3 学习笔记六（ParseSegment）

扫码加入运维网微信交流群