设为首页 收藏本站
查看: 1474|回复: 0

[经验分享] Apache Nutch 1.3 学习笔记十一(页面评分机制 LinkRank 介绍)

[复制链接]
累计签到:1 天
连续签到:1 天
发表于 2015-8-3 11:08:16 | 显示全部楼层 |阅读模式
  
  下面是Google翻译的http://wiki.apache.org/nutch/NewScoring内容,是关于Nutch 新的链接分数算法的说明,有点类似于Google的PageRank,这里有其运行的一个例子http://wiki.apache.org/nutch/NewScoringIndexingExample。
  本页面描述了修订723441新的计分(即WebGraph链接分析)Nutch的功能​​。 又见新的得分例如。
  目录




  • 一般资料


  • WebGraph


  • 循环


  • LinkRank


  • ScoreUpdater


  • 问题


  • 如果不忽略内部链接,将LinkRank分数相当于PageRank的分数呢 ?
    一般资料
      新的评分功能,可以发现在org.apache.nutch.scoring.webgraph。 这个软件包包含多个程序,建立网络图,执行稳定的收敛链路分析,并更新crawldb那些分数。 这些方案假定提取周期已经完成,现在的用户希望建立一个全球性的webgraph,从这些细分市场执行,webgraph链接分析,以得到一个全球性的相关性得分为每个URL。 建立一个webgraph假设,所有环节都存储在当前要处理的段。 链接不举行了一个加工周期到另一个。 全球链接分析的分数是基于对当前链接和分数的链接结构的webgraph变化会改变。
      目前得分作业都没有集成到作为Nutch的脚本命令必须在运行形式斌/ Nutch的org.apache.nutch.scoring.webgraph.XXXX。

    WebGraph
      WebGraph方案一旦所有的段取出,并准备要处理的,必须运行的第一份工作。 WebGraph发现org.apache.nutch.scoring.webgraph.WebGraph。 下面是一个打印程序的使用。

    使用:WebGraph

      - help显示此帮助消息
    段段(S)使用
      webgraphdb 的Web图形数据库使用
      WebGraph方案可以采取多种细分的过程,需要一个输出目录,在其中放置完成的Web图形组件。 WebGraph创建三个不同的部分组成:一个inlink数据库,outlink数据库,节点数据库。 inlink数据库的URL和所有inlinks上市。 outlink数据库的URL和所有outlinks上市。 节点数据库的URL与节点的信息,包括元inlinks和outlinks,并最终在该节点的得分上市。

    循环
      一旦内置的Web图形,我们就可以开始链接分析的过程。 循环是一个可选的方案,试图帮助确定在Web图形的链接周期杂草垃圾邮件网站。 的一个环节周期的一个例子将站点A,B,C和D,其中A到B的链接,链接到C到D的链接,链接回答:这个程序是计算昂贵,而且通常,由于时间和空间的要求,不能超过三个或四个层深度上运行。 虽然它识别网站的出现,垃圾邮件和这些链接,然后在以后的LinkRank计划打折扣,其效益成本比很低。 它包含在这个包的完整性,因为有可能是一种更好的方式,执行不同的算法功能。 但在当前的大生产webgraphs,它的使用是气馁。 在org.apache.nutch.scoring.webgraph.Loops循环。 下面是一个打印程序的使用。

    用法:循环
      - help显示此帮助消息
      webgraphdb 的Web图形数据库使用
    LinkRank
      使用内置的Web图形,我们现在可以运行LinkRank执行迭代链接分析。 LinkRank是类似的PageRank的链接分析程序,收敛到稳定的全球分数为每个URL。 类似的PageRank,LinkRank计划开始与常见的得分为所有URL。 然后,它创建一个基于传入的链接的数量和这些链接和外向链接页面数的分数的每个URL的全球成绩。 这个过程是迭代和分数趋向于收敛的迭代次数后。 它是从不同的PageRank在如一个网站的内部链接和网站之间的相互联系,可以忽略不计,徇私舞弊链接。 迭代次数也可以配置,默认情况下,进行10次迭代。 不同于以往的海外私人投资公司得分,不保持LinkRank方案的分数从一个处理时间到另一个。 重新处理运行在每个网络图和链接分数,所以我们没有分数不断增加的问题。 LinkRank需要WebGraph方案已成功完成,它为每个URL存储在节点数据库的webgraph其输出成绩。 LinkRank发现org.apache.nutch.scoring.webgraph.LinkRank。 下面是一个打印程序的使用。

    使用:LinkRank

      - help显示此帮助消息
      webgraphdb 网络图DB使用
    ScoreUpdater
      一旦LinkRank程序已运行和链接分析完成后,分数必须更新到检索数据库工作与当前Nutch的功能​​。 ScoreUpdater程序需要webgraph的节点数据库中存储的分数和更新crawldb。 如果URL中不存在的webgraph crawldb存在,那么它的得分是在crawldb清除。 ScoreUpdater需要WebGraph和LinkRank方案都已经运行,并需要检索数据库更新。 ScoreUpdater发现org.apache.nutch.scoring.webgraph.ScoreUpdater。 下面是一个打印程序的使用。

    用法:ScoreUpdater

      crawldb  crawldb使用
      - help显示此帮助消息
      webgraphdb  webgraphdb使用
    问题

    如果不忽略内部链接,将LinkRank分数相当于PageRank的分数呢?
      要理解这一点,我们必须解释如何精确计算LinkRank分数。
      WebGraph和LinkRank类一起工作。 WebGraph是来自相同的域或相同的主机的链接,可以忽略不计(或允许)。 配置参数:

      link.ignore.internal.host = TRUE |虚假
    link.ignore.internal.domain =真正的|虚假
      可以用来改变这种行为。 默认情况下,它忽略了来自同一个域和主机的链接。 所以从news.google.com链接不会被计算,也不会提高www.google.com得分。 WebGraph刚刚建立列出的inlinks,outlinks和节点,然后LinkRank级的流程,创造的得分。 LinkRank并密切注视这是类似原始的PageRank公式:
      (1 - dampingFactor)+(dampingFactor * totalInlinkScore)
      凡totalInlinkScore是指向一个页面的所有inlinks,考虑到这是迭代和所有网页开始rankOne评分(1 / numLinksInWebGraph)计算。
      区别是:





  • 循环类可用于识别和清除垃圾邮件/问题



    • 联系。 这个类应该找出相互链接 链接周期,然后让这些链接被删除。 问题是 类的计算是非常昂贵的。 您可以设置 深入你想让它运行,但它是比指数差,所以我 不会做,如果在所有超过1-3深度。 这将让你  互惠链接和小环节周期(A -> B -> C -> A)。 真的这 不添加到底得分,我只想离开它关闭 不运行此作业。





  • 您可以限制从重复的链接页面和域。 再说第A

    • B点两次,你可以限制它只能算一次。




  • 有一个阻尼因子,默认设置为0.85。 这

    • 作为原始的PageRank文件相同。 这是可配置 与link.analyze.damping.factor参数。




  • LinkRank运行的迭代次数。 理想的情况下工作会

    • 迭代直到收敛到一个点的分数,目前它是一个 设置迭代次数。


  LinkRank分数应相当于(足够接近)的PageRank得分。 有些事情要考虑:




  • PageRank是刚刚超过200个,谷歌使用的信号之一(如果他们



    • 仍然使用它),以确定相关性。 即使谷歌仍然使用 它最有可能发生了变化。 链接分析的分数都不错 全球的相关性得分,但链接得分没有一个搜索引擎  使今天。 哦,我多么希望它是这么简单。 LinkRank是一个很好的 出发点,就是它。





  • 这仅仅是如您已检索的网页数量。 "

    • 较大抓取段设置更好的成绩获得。




  • 一个环节一个环节,它的内容不可知。 如果你爬百米页

    • 并做了LinkRank上,你将看到所有常用的犯罪嫌疑人 (谷歌的 YouTube,Facebook的),但你也将看到这样的事情 FLASH下载。 LinkRank一个链接是一个链接,它不是特别 在它的内容的可视一块。


  关于这一主题的更多信息, 请参阅的NewScoringIndexingExample
  
  作者:http://blog.iyunv.com/amuseme_lu
  
  

  
  
  
  
  
  相关文章阅读及免费下载:
  
  
  
  Apache Nutch 1.3 学习笔记目录
  
  
  
  Apache Nutch 1.3 学习笔记一
  
  
  
  Apache Nutch 1.3 学习笔记二
  
  
  
  Apache Nutch 1.3 学习笔记三(Inject)
  
  
  
  Apache Nutch 1.3 学习笔记三(Inject CrawlDB Reader)
  
  
  
  Apache Nutch 1.3 学习笔记四(Generate)
  
  
  
  Apache Nutch 1.3 学习笔记四(SegmentReader分析)
  
  
  
  Apache Nutch 1.3 学习笔记五(FetchThread)
  
  
  
  Apache Nutch 1.3 学习笔记五(Fetcher流程)
  
  
  
  Apache Nutch 1.3 学习笔记六(ParseSegment)
  
  
  
  Apache Nutch 1.3 学习笔记七(CrawlDb - updatedb)
  
  
  
  Apache Nutch 1.3 学习笔记八(LinkDb)
  
  
  
  Apache Nutch 1.3 学习笔记九(SolrIndexer)
  
  
  
  Apache Nutch 1.3 学习笔记十(Ntuch 插件机制简单介绍)
  
  
  
  Apache Nutch 1.3 学习笔记十(插件扩展)
  
  
  
  Apache Nutch 1.3 学习笔记十(插件机制分析)
  
  
  
  Apache Nutch 1.3 学习笔记十一(页面评分机制 OPIC)
  
  
  
  Apache Nutch 1.3 学习笔记十一(页面评分机制 LinkRank 介绍)
  
  
  
  Apache Nutch 1.3 学习笔记十二(Nutch 2.0 的主要变化)
  
  
  
  更多《Apache Nutch文档》,尽在开卷有益360 http://www.docin.com/book_360
  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-93634-1-1.html 上篇帖子: (转)Apache 中文乱码解决方案 下篇帖子: centos下安装apache + subversion(转)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表