设为首页收藏本站

运维网»论坛 › 【Web构架】 › apache › Apache Nutch 1.3 学习笔记八（LinkDb）

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

查看: 1272|回复: 0

[经验分享] Apache Nutch 1.3 学习笔记八（LinkDb）

尚未签到

发表于 2015-8-3 04:35:55 | 显示全部楼层 |阅读模式

　　
　　这里主要是分析一下org.apache.nutch.crawl.LinkDb,它主要是用计算反向链接。

1. 运行命令 bin/nutch invertlinks
　　帮助参数说明：
　　

Usage: LinkDb (-dir | ...) [-force] [-noNormalize] [-noFilter]
linkdb output LinkDb to create or update
-dir segmentsDir parent directory of several segments, OR
seg1 seg2 ... list of segment directories
-force force update even if LinkDb appears to be locked (CAUTION advised)
-noNormalize don't normalize link URLs
-noFilter don't apply URLFilters to link URLs

　　
本地的运行结果为：
　　

lemo@debian:~/Workspace/java/Apache/Nutch/nutch-1.3$ bin/nutch invertlinks db/linkdb/ db/segments/20110822105243/
LinkDb: starting at 2011-08-29 09:21:36
LinkDb: linkdb: db/linkdb
LinkDb: URL normalize: true
LinkDb: URL filter: true
LinkDb: adding segment: db/segments/20110822105243 // 加入新的segment库
LinkDb: merging with existing linkdb: db/linkdb // 与原因的库进行合并
LinkDb: finished at 2011-08-29 09:21:40, elapsed: 00:00:03

　　
2. LinkDb主要源代码分析
　　在LinkDb主要是调用一个invert方法，这个方法做了两件事，
+ 分析新输入的segment目录，产生新的反向链接库
+ 把新产生的反向链接库与原来的库进行合并

2.1 分析新输入的segment目录，主要代码如下：
　　

// 新建立一个MP任务
JobConf job = LinkDb.createJob(getConf(), linkDb, normalize, filter);
// 添加目录到输入路径，这里可能有多个输入路径, parse_data
for (int i = 0; i

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表，该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有，请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意，请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息，一经发现立即删除。若您因此触犯法律，一切后果自负，我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集，我们仅提供一个展示、介绍、观摩学习的平台，我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责，亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏，不得用于商业或者其他用途，否则，一切后果均由您自己承担，我们对此不承担任何法律责任
7、如涉及侵犯版权等问题，请您及时通知我们，我们将立即采取措施予以解决
8、联系人Email：admin@iyunv.com 网址：www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址：https://www.yunweiku.com/thread-93414-1-1.html 上篇帖子： apache+php+mysql 常见集成环境安装包下篇帖子： c apache module 开发入门（访问mysql）

回复

使用道具举报

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群，最新一手资源尽在官方微信交流群！快快加入我们吧...

扫描微信二维码查看详情

客服 E-mail:iyunvcom@gmail.com

本站由青云提供云计算服务

运维网--中国最专业的运维工程师交流社区

豫ICP备20007574号-1 Copyright © 2012-2025

Good Good

Study

Day Day

UP

客服E-mail:kefu@iyunv.com 客服QQ：1061981298

QQ群⑦： QQ群⑧： k8s群：

提醒：禁止发布任何违反国家法律、法规的言论与图片等内容；本站内容均来自个人观点与网络等信息，非本站认同之观点.

本站大部分资源是网友从网上搜集分享而来，其版权均归原作者及其网站所有，我们尊重他人的合法权益，如有内容侵犯您的合法权益，请及时与我们联系进行核实删除！

合作伙伴:

快速回复 返回顶部 返回列表