Solr的学习使用之（二）schema.xml等配置文件的解析

frcd · 发表于 2014-1-17 09:07:22

　上一篇文章已经讲解了如何部署Solr，部署是部署完了，可是总觉得心里空空的，没底，里面有N多配置文件，比如schema.xml、solrConfig.xml、solr.xml and so on……都不知道他们是来干嘛的，所以要先了解下整体的项目架构、基本原理，才能在后续的工作中，更加熟练，须知挨踢行业，必须求甚解。以前不管是上学，还是做其他事情，都是在没有了解其原理的基础上就开工，导致了似懂非懂的一种状态，这种情况就是在现有的范围、环境下可以应付得来，但是如果环境一变，那就束手无策了。正所谓磨刀不误砍柴工，所以，必须了解下基本原理，才能更好的在路上。

　　以下是一些Solr的项目结构、配置文件的讲解：

作者讲解了Solr Core、schema.xml、solrConfig.xml文件的含义，以MySql来做对比，这样更加通俗易懂，比如solr的core就相当于数据库，schema.xml相当于表等等

http://www.ecmkit.com/zh-hans/taxonomy/term/287

schema.xml：
schema.xml的结构比较简单，主要分为2 部分types和fields。types部分定义了字段类型的定义信息，比如int，string等；而在fields部分则定义了Solr将会存储哪些信息，fields内的字段是根据你的业务需求来定义的。types和fields的关系其实也很明显，就是types被fields所引用。举例来说，fields内定义了，该字段的类型是string，而string类型的定义就是在types中定义的。

types
我们知道<types>内定义了一些数据类型，这些数据类型会被<fields>引用。就先来看一个常见的定义：<fieldType name="int" class="solr.TrieIntField" precisionStep="8" omitNorms="true" positionIncrementGap="0"/>。很明显这是一个数值类型的定义，在solr中，数值类型包括int, float, long, double以及日期类型（date），而对于这些数值类型，基本上都是用Trie开始的类型，例如"solr.TrieFloatField"，"solr.TrieDateField"等。Trie开始的类型能满足你至少95%以上的需求，因此除非有特殊理由，不然还是老老实实用Trie开始的类型吧。

fieldType
<fieldType name="text_general" class="solr.TextField" positionIncrementGap="100">
   <analyzer type="index">
      <tokenizer class="solr.StandardTokenizerFactory"/>
      <filter ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
      <filter class="solr.LowerCaseFilterFactory"/>
   </analyzer>
   <analyzer type="query">
      <tokenizer class="solr.StandardTokenizerFactory"/>
      <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
      <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
      <filter/>
   </analyzer>
</fieldType>
首先应该注意到有2个analyzer。一个是index，另外一个是query。也就是说<analyzer type="index">是用在index阶段，而<analyzer type="query">用在查询阶段—你所输入的查询内容也是需要通过分析最终产生token，然后和index里的token匹配。

<tokenizer class="solr.StandardTokenizerFactory"/>当然就是对应分析链中的起点Tokenizer。接下来串联了2个filter，分别是solr.StopFilterFactory，solr.LowerCaseFilterFactory。stop word filter就是把那些the, of, on之类的词从token中去除掉，由于这类词在文档中出现的频率非常高，而对文档的特征又没什么影响，所以这类词对查询没什么意义。Lower case filter的作用是将所有的token转换成小写，也就是在最终的index中保存的都是小写。

以下还有一篇关于schema.xml文件配置的详细解释，赞一个:

http://blog.iyunv.com/liuweitoo/article/details/8137124

　　在路上……

账号		自动登录	找回密码
密码			立即注册

wirelessnetview好用的无线分析工具

Red Hat RHCE 8 (EX294) Cert Guide

Shell从入门到精通（阿良）

亿图图示专家(EDraw Max) V7.9 中文破解版

zabbix3.4.1安装部署+微信推送信息+大屏显

Red Hat OpenShift I: Containers & Kubern

2025 年，C++ 还能“硬核”多久？

[经验分享] Solr的学习使用之（二）schema.xml等配置文件的解析

相关帖子

浏览过的版块

扫码加入运维网微信交流群