wocaosinima 发表于 2015-7-19 07:05:04

Nutch & Solr & IKAnalyzer 问题记录


[*]【集锦】Nutch配置错误
[*]IO错误
  记得出错的时候把出错的目录删除,否则下次还是出错。


[*]Command crawl is deprecated, please use bin/crawl instead
  1.8和2.3版本不可以使用这个命令,所以才会有之前的错误。
   使用以下代替:



1 Usage: bin/crawl   
2 Example: bin/crawl urls/seed.txt TestCrawl http://localhost:8983/solr/ 2
  


[*]【集锦】Solr配置错误
[*]出现500问题
  在/usr/lib/tomcat/apache-tomcat-6.0.43/webapps/solr/WEB-INF下的web.xml中



1
2 solr/home
3 这里的值应该指向之前从solr拷到tomcat下的文件夹solr
4 java.lang.String
5

[*]出现404问题
  将 /usr/lib/hadoop/solr/solr-4.10.2/example/lib/ext下的所有jar文件复制到/usr/lib/tomcat/apache-tomcat-6.0.43/lib下
   修改/usr/lib/tomcat/apache-tomcat-6.0.43/solr/collection1/conf里的solrconfig.xml文件中的dataDir一行内容为:



1 ${solr.data.dir:原本是空的,现需要加上拷到tomcat里solr包下的data地址:/usr/lib/tomcat/apache-tomcat-6.0.43/solr/collection1/data}

[*]【集锦】IKAnalyzer配置错误
[*]已经将包拷贝到lib下面,依然出现无法加载包的问题
  在 Solr4.0 发布以后,官方取消了 BaseTokenizerFactory 接口,而直接使用 Lucene Analyzer 标准接口。因此 IK 分词器 2012 FF 版本也取消了org.wltea.analyzer.solr.IKTokenizerFactory 类。
   所以检查schema.xml中FieldType的配置,删除或修改掉出现class="org.wltea.analyzer.solr.IKTokenizerFactory"的部分,改为使用



1

[*] Field域的name属性必须唯一,不能有重复
[*] 测试地址为localhost:8080/solr/#/collection1/analysis 网上有的地址是错误的
  
页: [1]
查看完整版本: Nutch & Solr & IKAnalyzer 问题记录