list1234 发表于 2016-12-14 11:11:23

nutch和solr安装

  vmware7+ubuntu12.04
  1,下载文件nutch1.5http://mirror.bjtu.edu.cn/apache/nutch/1.5/ 
  solr3.6:http://mirror.bjtu.edu.cn/apache/lucene/solr/3.6.0/
  2,解压,bin/nutch需要添加可执行权限,执行后显示 Usage: nutch [-core] COMMAND
  3,配置nutch:
  conf/nutch-site.xml
  创建文件夹urls,假如文件seed.txt,在文件内加入要爬取的网站:http://www.sina.com.cn/
  修改conf/regex-urlfilter.txt末尾的+.为+^http://(*\.)*sina.com.cn/ 
  执行命令bin/nutch crawl urls -dir crawl -depth 3 -topN 5,生成
  crawl/crawldb 
crawl/linkdb 
crawl/segments
  4,在solr目录下找到example/start.jar,执行 java -jar start.jar
  访问
  http://localhost:8983/solr/admin/ 
http://localhost:8983/solr/admin/stats.jsp
  5,复制nutch目录下conf/schema.xml到solr目录下example/solr/conf/,并加入:
  <field name="text" type="text" stored="true" indexed="true"/>
  确保重启solr不报错,否则加入<field name="content" type="text" stored="true" indexed="true"/>
  6,索引刚刚使用nutch下载的文件:
  bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/* 
  7,边下载变索引命令:
  bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
  8,访问http://localhost:8983/solr/admin/,这只是部分网页搜索的配置
  更多详细内容参考:
  http://www.cnblogs.com/skyme/archive/2012/06/13/2548239.html
页: [1]
查看完整版本: nutch和solr安装