hb_sz 发表于 2015-8-6 07:14:53

Apache Nutch(二)

  Nutch Crawler工作流程:

[*]Injector - 注入
[*]Generator - 产生抓取列表
[*]Fetcher - 从网上抓取网页
[*]Parse Segment - 对抓取的网页进行解析
[*]CrawlDB Update - 把抓取的URL状态和新发现的URL存入Crawl DB
[*]LinkDB invertlinks
  在 2-5 步骤循环 topN 次,最后执行 5步骤。

  
  
  
页: [1]
查看完整版本: Apache Nutch(二)