设为首页 收藏本站
查看: 939|回复: 0

[经验分享] nutch+tomcat安装详细教程

[复制链接]

尚未签到

发表于 2018-12-3 14:01:28 | 显示全部楼层 |阅读模式
  环境OracleLinux-R7-U2-Server-x86_64
  tomcat8.5官网下载:http://apache.opencas.org/tomcat/tomcat-8/v8.5.0/bin/apache-tomcat-8.5.0.tar.gz
  nutch1.0载:http://archive.apache.org/dist/nutch/nutch-1.0.tar.gz
  jdk-8u77官网下载:http://download.oracle.com/otn-pub/java/jdk/8u77-b03/jdk-8u77-linux-x64.rpm
  

  将下载文件拷贝至/server目录下
  

  1、安装jdk
  

  [root@Nutch ~]# cd /server
  [root@Nutch server]# rpm -ivh jre-8u77-linux-x64.rpm
  [root@Nutch server]# java  -version
  java version "1.8.0_77"
  Java(TM) SE Runtime Environment (build 1.8.0_77-b03)
  Java HotSpot(TM) 64-Bit Server VM (build 25.77-b03, mixed mode)
  配置环境变量
  [root@Nutch server]# vi /etc/profile
  在文件最后添加以下内容
  export JAVA_HOME=/usr/java/jdk1.8.0_77
  export JAVA_BIN=/usr/java/jdk1.8.0_77/bin
  export PATH=$PATH:$JAVA_HOME/bin
  export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
  保存退出
  使用source使参数生效
  [root@Nutch server]# source /etc/profile
  

  2、安装compat-libstdc++
  

  [root@Nutch server]# yum install compat-libstdc++*
  

  3、安装nutch
  

  登录nutch用户
  [@Nutch server]# su - nutch
  赋予nutch用户权限
  [nutch@Nutch ~]$ chown -R nutch.nutch /server/
  解压nutch
  [nutch@Nutch ~]$ cd /server/
  [nutch@Nutch server]$ tar zxvf nutch-1.0.tar.gz
  修改解压后文件名称为nutch
  [nutch@Nutch server]$ mv nutch-1.0 nutch
  

  4、安装tomcat
  

  解压tomcat
  [nutch@Nutch server]$ tar zxvf apache-tomcat-8.5.0.tar.gz
  修改解压后文件名称tomcat
  [nutch@Nutch server]$ mv apache-tomcat-8.5.0 tomcat
  启动tomcat(防火墙8080已开放)
  [nutch@Nutch server]$ tomcat/bin/startup.sh
  浏览器登录http://:8080查看是否成功
  

  5、配置tomcat
  

  删除tomcat/webpaas/ROOT下所有文件
  复制nutch文件夹下nutch1.0.war至tomcat/weapps/ROOT下
  [nutch@Nutch ~]$ cp /server/nutch/nutch-1.0.war /server/tomcat/webapps/ROOT/nutch.war
  进入ROOT目录下解压nutch.war
  [nutch@Nutch ~]$ cd /server/tomcat/webapps/ROOT
  [nutch@Nutch ROOT]$ jar xvf nutch.war
  启动tomcat进入浏览区查看是否可以进入nutch搜索界面
  [nutch@Nutch ROOT]$ /server/tomcat/bin/startup.sh
  配置nutch-site.xml文件
  [nutch@Nutch ROOT]$ cd /server/tomcat/webapps/ROOT/WEB-INF/classes/
  [nutch@Nutch classes]$ vi nutch-site.xml
  在之间添加以下内容
  
  

  
  searcher.dir
  /server/crawl.demo   //value的值指向nutch抓取的页面的保存目录
  
  

  
  http.agent.name
  nutch-1.0
  HTTP 'User-Agent'
  
  

  
  

  配置 server.xml文件
  [nutch@Nutch classes]$ cd /server/tomcat/conf/
  [nutch@Nutch conf]$ vi server.xml
  找到Connector port="8080"语句并添加最后两句内容
  
  保存退出
  

  6、配置nutch
  

  [nutch@Nutch conf]$ cd /server/nutch/conf/
  

  配置crawl-urlfilter.txt文件
  [nutch@Nutch conf]$ vi crawl-urlfilter.txt
  将一下内容
  # accept hosts in MY.DOMAIN.NAME
  +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
  修改为(根据自己搜索的内容更改)
  # accept hosts in MY.DOMAIN.NAME
  +^http://([a-z0-9]*\.)*com/
  +^http://([a-z0-9]*\.)*cn/
  +^http://([a-z0-9]*\.)*net/
  

  配置regex-urlfilter.txt文件
  [nutch@Nutch conf]$ vi regex-urlfilter.txt
  将最后一个行注释掉,并在最后添加以下内容
  # accept anything else
  #+.
  +^http://([a-z0-9]*\.)*com/
  +^http://([a-z0-9]*\.)*cn/
  +^http://([a-z0-9]*\.)*net/
  

  配置nutch-site.xml文件
  

  在中间填写一下语句
  
  

  
  http.agent.name
  Nutch nutch agent
  
  
  http.agent.version
  1.0
  
  

  
  

  配置urls目录
  

  在/server下新建urls目录
  [nutch@Nutch conf]$ cd /server/
  [nutch@Nutch server]$ mkdir urls
  新建url文件并填写需要搜索的网站域名(本人填写的是http://www.qq.com)
  [nutch@Nutch urls]$ vi url
  

  配置nutch抓取的页面的保存目录
  

  [nutch@Nutch conf]$ cd /server/
  [nutch@Nutch server]$ mkdir crawl.demo
  

  执行抓取命令
  

  [nutch@Nutch server]$ cd /server/nutch
  [nutch@Nutch nutch]$ bin/nutch crawl /server/urls -dir /server/crawl.demo -depth 2 -threads 4 -topN 50 >& /server/crawl.demo/crawl.log
  如果报Error: JAVA_HOME is not set可在shell中用nutch执行一次export JAVA_HOME=/usr/java/jdk1.8.0_77
  

  # /server/urls是存放网址的文件夹目录
  # -dir /server/crawl.demo是抓取的页面的存放目录,与3.1.2中的设定搜索目录是对应的
  # -depth指爬行的深度,这里处于测试的目的,选择深度为 2 ,完全爬行一般可设定为10左右
  # -threads指定并发的进程这是设定为 4
  # -topN指在每层的深度上所要抓取的最大的页面数,完全抓取可设定为1万到100万,这取决于网站资源数量
  # 抓取过程写入/server/crawl.demo/crawl.log中
  

  抓取完毕可到web页面进行搜索
  

  到此为止nutch安装完毕
  

  

  

  

  





运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-642904-1-1.html 上篇帖子: Tomcat日志控制脚本 下篇帖子: myeclipse 10.1 修改外部tomcat发布路径
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表