Apache Nutch（二）

hb_sz 发表于 2015-8-6 07:14:53

　　Nutch Crawler工作流程：

[*]Injector - 注入
[*]Generator - 产生抓取列表
[*]Fetcher - 从网上抓取网页
[*]Parse Segment - 对抓取的网页进行解析
[*]CrawlDB Update - 把抓取的URL状态和新发现的URL存入Crawl DB
[*]LinkDB invertlinks
　　在 2-5 步骤循环 topN 次，最后执行 5步骤。

　　
　　
　　

页: [1]

运维网's Archiver

Apache Nutch（二）