设为首页 收藏本站
查看: 1313|回复: 0

[经验分享] tomcat和nutch的安装

[复制链接]

尚未签到

发表于 2015-8-9 08:24:47 | 显示全部楼层 |阅读模式
一、tomcat的安装
  1. 下载tomcat,下载地址为:http://tomcat.apache.org/download-70.cgi
  2.  解压下载下来的文件,tar zxvf ....
  3. 进入解压后的文件,运行/bin文件下的startup.sh,启动tomcat服务器。
  4. 在浏览器中输入http://locahost:8080/, 若出现apache Tomcat的界面,则说明正常。
DSC0000.jpg

  5.若要关闭tomcat服务器,则输入bin文件的shutdown.sh即可
  

二、nutch1.2的安装
  1.下载nutch1.2软件。下载地址为:http://archive.apache.org/dist/nutch/
  2.解压,把解压后的文件夹nutch-1.2拷贝到/usr/local中,
  3.进入/usr/local/nutch-1.2,
  

  4.创建weburls.txt
在nutch-1.2下新建一个文本文件,命名为"weburls.txt",输入"http://www.163.com"


5.修改crawl-urlfilter.txt中的参数
从终端打开craw-urlfilter.txt,依次输入以下命令
cd /usr/local/nutch-1.2/conf/
vim crawl-urlfilter.txt


修改倒数第二行的内容,将"+^http://([a-z0-9]*\.)*Y.DOMAIN.NAME/"改为入“+^http://([a-z0-9]*\.)*163.com/”


6.修改nutch-site.xml文件中的内容:
在终端输入vim nutch-site.xml
在该文件中输入以下内容:







http.agent.name
HD nutch agent



http.agent.version
1.2




7.运行网络蜘蛛抓紧网页。输入以下命令:
  bin/nutch crawl weburls.txt -dir localweb -depth 2 -topN 100 -threads 2
-dir = localweb  指明下载数据存放路径,该目录不存在时,会被自动创建
-deptch = 2       下载深度为2
-topN = 100      下载符合条件的前100个页面
-threads = 2       启动的线程数目


蜘蛛运行时会输出大量数据,抓取结束之后,可以发现localweb目录被生成,里面有几个目录。

  

三、在Tomcat中部署Nutch项目
  1. 复制nutch-1.2
将Nutch根目录下的nutch-1.2.war文件放置到"/usr/local/tomcat-7.0.40/webapps",稍等会儿,Tomcat便会将其解压
  
注:
  此时要重启tomcat,即先./shutdown.sh,然后./startup.sh,不然可能在进行搜索时,无法出现结果
  
2. 修改nutch-site.xml
在上述目录下的"/usr/local/tomcat-7.0.40/webapps/nutch-1.2/WEB-INF/classes",加入以下内容:

     searcher.dir
     /usr/local/nutch-1.2/localweb
     



上面的value要改成第三步蜘蛛的下载目录,Tomcat就是从这个存取Nutch抓下来的东西的文件夹中读取数据的,所以必须保证两者的准确一致。


3. 使用Nutch搜索
在浏览器中输入“http://localhost:8080/nutch-1.2”,可以看到Nutch的主页面,如图:
DSC0001.jpg

  
此时搜索一下"网易",发现搜索到很多符合的记录,但是显示的都是乱码,此时需要修改tomcat的位置文件,
打开"/usr/local/tomcat-7.0.40/conf/server.xml",将Connector这个元素改成一下内容:

  也许你的serve.xml文件中此行不是这样,多或少了一些属性,但不要紧,重要的就是加粗的部分。作用的也一目了然,就是设置字符编码的。      
  搜索结果如下:
DSC0002.jpg

以上就是安装Tomcat+Nutch的全部过程!

  

  参考:
  1.http://luorenhuan.blog.163.com/blog/static/18481730920113237134137/
  

  

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-96213-1-1.html 上篇帖子: JDK,Tomcat环境变量设置 下篇帖子: Tomcat内存设置方法(转载并实践)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表