运维网's Archiver
论坛
›
apache
› Apache Nutch(二)
hb_sz
发表于 2015-8-6 07:14:53
Apache Nutch(二)
Nutch Crawler工作流程:
[*]Injector - 注入
[*]Generator - 产生抓取列表
[*]Fetcher - 从网上抓取网页
[*]Parse Segment - 对抓取的网页进行解析
[*]CrawlDB Update - 把抓取的URL状态和新发现的URL存入Crawl DB
[*]LinkDB invertlinks
在 2-5 步骤循环 topN 次,最后执行 5步骤。
页:
[1]
查看完整版本:
Apache Nutch(二)