设为首页 收藏本站
查看: 1338|回复: 0

[经验分享] Apache Nutch 1.3 学习笔记十二(Nutch 2.0 的主要变化)

[复制链接]
累计签到:8 天
连续签到:1 天
发表于 2015-8-3 09:52:52 | 显示全部楼层 |阅读模式
  
  Nutch 2.0 的主要一些变化
1. Storage Abstraction
     initially with back end implementations for HBase and HDFS
   extend it to other storages later e.g. MySQL etc...
   这里说的是一个存储层的抽象,因为原来nutch的链接与数据的存储都是在HDFS上的,新的Nutch 2.0准备把存储层进行抽象,使用的是新的NoSql的ORM框架,叫做GORA,下面地址中有其说明http://wiki.apache.org/nutch/GORA_HBase,主页在http://incubator.apache.org/gora/,目前支持数据库为Apache HBase and Apache Cassandra,Hypertable,以后可能会支持MySQL

2. Plugin cleanup : Tika only for parsing document formats (see http://wiki.apache.org/nutch/TikaPlugin)
     keep only stuff HtmlParseFilters (probably with a different API) so that we can post-process the DOM created in Tika from  whatever original format.
   Modify code so that parser can generate multiple documents which is what 1.x does but not 2.0
   对插件功能的整理。

3. Externalize functionalities to crawler-commons project [http://code.google.com/p/crawler-commons/]
     robots handling, url filtering and url normalization, URL state management, perhaps deduplication. We should coordinate our efforts, and share code freely so that other projects (bixo, heritrix,droids) may contribute to this shared pool of functionality, much like Tika does for the common need of parsing complex formats.
   把Nutch的抓取功能抽象出来,生成一个common工程,以扩展到现有的不同的网页抓取库,如heritrix,bixo等。

4. Remove index / search and delegate to SOLR
     we may still keep a thin abstract layer to allow other indexing/search backends (ElasticSearch?), but the current mess of  indexing/query filters and competing indexing frameworks (lucene, fields, solr) should go away. We should go directly from DOM to a NutchDocument, and stop there.
   这一部分是对索引的重构,把索引的建立与查询移到SOLR架构上去,这样可以和搜索进行很好的隔离,现在的nutch 1.3 已经可以使用Solr建立索引与查询,可能Nutch 2.0的功能或者使用上会有一个更加的改进。

5. Rewrite SOLR deduplication : do everything using the webtable and avoid retrieving content from SOLR
     这是对SOLR的deduplication代码的一个重构。

6. Various new functionalities
     e.g. sitemap support, canonical tag, better handling of redirects, detecting duplicated sites, detection of spam cliques, tools to manage the webgraph, etc.
   一些新的特性,如sitemap的支持,这个在crawler-commons项目有,更好的去处理网页的重定向,检查重复的网站等,还有一些去处理webgraph的外围工具都会完善起来。

  总之,Nutch2.0 的改进还是比较多的,主要是体现在存储层的抽象、抓取功能的扩展抽象、引入SOLR框架。看来Nutch的路还有很长啊。

参考
  http://wiki.apache.org/nutch/Nutch2Roadmap
  
  作者:http://blog.iyunv.com/amuseme_lu
  
  
  
  
  
  
  
  相关文章阅读及免费下载:
  
  
  
  Apache Nutch 1.3 学习笔记目录
  
  
  
  Apache Nutch 1.3 学习笔记一
  
  
  
  Apache Nutch 1.3 学习笔记二
  
  
  
  Apache Nutch 1.3 学习笔记三(Inject)
  
  
  
  Apache Nutch 1.3 学习笔记三(Inject CrawlDB Reader)
  
  
  
  Apache Nutch 1.3 学习笔记四(Generate)
  
  
  
  Apache Nutch 1.3 学习笔记四(SegmentReader分析)
  
  
  
  Apache Nutch 1.3 学习笔记五(FetchThread)
  
  
  
  Apache Nutch 1.3 学习笔记五(Fetcher流程)
  
  
  
  Apache Nutch 1.3 学习笔记六(ParseSegment)
  
  
  
  Apache Nutch 1.3 学习笔记七(CrawlDb - updatedb)
  
  
  
  Apache Nutch 1.3 学习笔记八(LinkDb)
  
  
  
  Apache Nutch 1.3 学习笔记九(SolrIndexer)
  
  
  
  Apache Nutch 1.3 学习笔记十(Ntuch 插件机制简单介绍)
  
  
  
  Apache Nutch 1.3 学习笔记十(插件扩展)
  
  
  
  Apache Nutch 1.3 学习笔记十(插件机制分析)
  
  
  
  Apache Nutch 1.3 学习笔记十一(页面评分机制 OPIC)
  
  
  
  Apache Nutch 1.3 学习笔记十一(页面评分机制 LinkRank 介绍)
  
  
  
  Apache Nutch 1.3 学习笔记十二(Nutch 2.0 的主要变化)
  
  
  
  更多《Apache Nutch文档》,尽在开卷有益360 http://www.docin.com/book_360
  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-93564-1-1.html 上篇帖子: win32上安装Apache+SVN+Trac笔记 下篇帖子: Apache Pig的前世今生
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表