设为首页 收藏本站
查看: 993|回复: 0

[经验分享] Eclipse 6.0.0 + Heritrix 1.12.1 的配置

[复制链接]

尚未签到

发表于 2017-2-28 09:35:54 | 显示全部楼层 |阅读模式
  从控制台配置Heritrix,使之能运行之后,完成获取信息的基本功能是没问题的。
  但是Heritrix默认的功能,比较类似于离线浏览器,把所有的信息都抓下来了。尽管Heritrix提供有可定制的处理链,但可能不够灵活,有时需要自己定制Crawler类调试运行。于是开始找在Eclipse中配置的方法。网上搜到的配置方法有些很繁琐,有的不完整,看着头很大。所以对比了下他们的描述,想了想照着做总是出现错误的原因,找了种比较完整可行的方法。
  1。先下载heritrix-1.12.1-src.zipheritrix-1.12.1.zip。方法在2008/01/26的另一篇文章中写过了,不再赘述。我直接下载到桌面了。(系统盘是G盘……)分别把他们解压到当前文件夹\heritrix-1.12.1\\heritrix-1.12.1-src\。
  2。解压heritrix-1.12.1.jar到\heritrix-1.12.1\heritrix-1.12.1。解压得到的文件夹结构如图: DSC0000.jpg
  3。把以上目录的所有文件拷贝到heritrix-1.12.1-src\heritrix-1.12.1\src\java文件夹下。目的是将java文件夹配置成一个完整的工程目录。
  4。把\heritrix-1.12.1-src\heritrix-1.12.1\lib文件夹 拷贝到\heritrix-1.12.1-src\heritrix-1.12.1\src\java文件夹下。把lib下的jar包放入工程内部是为了便于管理。
  5。把heritrix-1.12.1-src\heritrix-1.12.1\src\webapps文件夹拷贝到\heritrix-1.12.1-src\heritrix-1.12.1\src\java文件夹下。此时工程目录基本上完整了。得到的效果如图:
DSC0001.jpg

  6。在Eclipse中新建一个Java Project,选择从现有源代码建立,源代码的路径指向\heritrix-1.12.1-src\heritrix-1.12.1\src\java。命名为Heritrix,点击ok。
  7。这时在package explorer中应该会出现大量的编译错误标记。原因是没有把对应的jar包导入项目。在Java Build Path的Library选项卡中,把项目lib文件夹下的jar包全部加入Build Path。
  8。在window->Preference->Java->Compiler中,将Compiler compliance level 设为5.0,也就是JDK1.5兼容的语法。目的是使Heritrix编译通过。否则Eclipse可能不认assert这个关键字。
  9。用鼠标选中/Heritrix/org/archive/crawler/Heritrix.java,右键选择Run As Java Application,Console应该是没有输出的。原因是没有提供运行的参数(用户名/口令)。 一种方法是,修改项目根文件夹下的heritrix.properties文件,设置“heritrix.cmdline.admin = admin:admin”。正常运行时的输出如下:
  Heritrix version: 1.12.1
17:26:43.621 EVENT  Starting Jetty/4.2.23
17:26:43.801 EVENT  Started WebApplicationContext[/,Heritrix Console]
17:26:43.871 EVENT  Started SocketListener on 127.0.0.1:8080
17:26:43.871 EVENT  Started org.mortbay.jetty.Server@a01335

  11。另外一种设定用户名和密码的方式是,在Run Dialog中的Arguments参数选项卡中,输入-admin=admin:admin,单击Apply,再单击Run即可运行。
  10。运行Heritrix,在浏览器中输入http://localhost:8080/,用户名/密码为“admin/admin”,可以登陆进去的话应该就可以正常使用了。至此配置完毕。至于怎样建立抓取任务,可参看2008/01/26那篇文章,描述的很详细了。
  晚上睡前忽然想起来点东西,就开机重新配它。配置用了不到10分钟,总结出来用了近一个小时……晕。写东西太慢了。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-348238-1-1.html 上篇帖子: Web Continuation 下篇帖子: 收集一些android程序源码地址
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表