关于solr schema.xml 和solrconfig.xml的解释

shilang · 发表于 2015-7-17 10:23:13

　　一、字段配置（schema）
　　
　　schema.xml位于solr/conf/目录下，类似于数据表配置文件，
　　定义了加入索引的数据的数据类型，主要包括type、fields和其他的一些缺省设置。
　　
　　1、先来看下type节点，这里面定义FieldType子节点，包括name,class,positionIncrementGap等一些参数。

name：就是这个FieldType的名称。
class：指向org.apache.solr.analysis包里面对应的class名称，用来定义这个类型的行为。

< schema name = "example" version = "1.2" >
< types >
< fieldType name = "string" class = "solr.StrField" sortMissingLast = "true" omitNorms = "true" />
< fieldType name = "boolean" class = "solr.BoolField" sortMissingLast = "true" omitNorms = "true"/>
< fieldtype name = "binary" class = "solr.BinaryField" />
< fieldType name = "int" class = "solr.TrieIntField" precisionStep = "0" omitNorms = "true"
positionIncrementGap = "0" />
< fieldType name = "float" class = "solr.TrieFloatField" precisionStep = "0" omitNorms = "true"
positionIncrementGap = "0" />
< fieldType name = "long" class = "solr.TrieLongField" precisionStep = "0" omitNorms = "true"
positionIncrementGap = "0" />
< fieldType name = "double" class = "solr.TrieDoubleField" precisionStep = "0" omitNorms = "true"
positionIncrementGap = "0" />
...
...

　　
　　必要的时候fieldType还需要自己定义这个类型的数据在建立索引和进行查询的时候要使用的分析器analyzer，包括分词和过滤，如下：

view plain print ?

< fieldType name = "text_ws" class = "solr.TextField" positionIncrementGap = "100" >
< analyzer >
< tokenizer class = "solr.WhitespaceTokenizerFactory" />
< fieldType name = "text" class = "solr.TextField" positionIncrementGap = "100" >
< analyzer type = "index" >
< tokenizer class = "solr.WhitespaceTokenizerFactory" />
< filter class = "solr.StopFilterFactory"
ignoreCase = "true"
words = "stopwords.txt"
enablePositionIncrements = "true"
/>
< filter class = "solr.WordDelimiterFilterFactory" generateWordParts = "1"
generateNumberParts = "1" catenateWords = "1" catenateNumbers = "1"
catenateAll = "0" splitOnCaseChange = "1" />
< filter class = "solr.LowerCaseFilterFactory" />
< filter class = "solr.SnowballPorterFilterFactory" language = "English"
protected = "protwords.txt" />
< analyzer type = "query" >
< tokenizer class = "solr.WhitespaceTokenizerFactory" />
< filter class = "solr.SynonymFilterFactory" synonyms = "synonyms.txt" ignoreCase = "true"
expand = "true" />
< filter class = "solr.StopFilterFactory"
ignoreCase = "true"
words = "stopwords.txt"
enablePositionIncrements = "true"
/>
< filter class = "solr.WordDelimiterFilterFactory" generateWordParts = "1"
generateNumberParts = "1" catenateWords = "0" catenateNumbers = "0"
catenateAll = "0" splitOnCaseChange = "1" />
< filter class = "solr.LowerCaseFilterFactory" />
< filter class = "solr.SnowballPorterFilterFactory" language = "English"
protected = "protwords.txt" />

　　
　　2、再来看下fields节点内定义具体的字段（类似数据库的字段），含有以下属性：

name：字段名
type：之前定义过的各种FieldType
indexed：是否被索引
stored：是否被存储（如果不需要存储相应字段值，尽量设为false）
multiValued：是否有多个值（对可能存在多值的字段尽量设置为true，避免建索引时抛出错误）

view plain print ?

< fields >
< field name = "id" type = "integer" indexed = "true" stored = "true" required = "true" />
< field name = "name" type = "text" indexed = "true" stored = "true" />
< field name = "summary" type = "text" indexed = "true" stored = "true" />
< field name = "author" type = "string" indexed = "true" stored = "true" />
< field name = "date" type = "date" indexed = "false" stored = "true" />
< field name = "content" type = "text" indexed = "true" stored = "false" />
< field name = "keywords" type = "keyword_text" indexed = "true" stored = "false" multiValued ="true" />
< field name = "all" type = "text" indexed = "true" stored = "false" multiValued = "true" />

　　
　　3、建议建立一个拷贝字段，将所有的全文本字段复制到一个字段中，以便进行统一的检索：
　　以下是拷贝设置：

view plain print ?

< copyField source = "name" dest = "all" />
< copyField source = "summary" dest = "all" />

　　
　　4、动态字段，没有具体名称的字段，用dynamicField字段
　　如：name为*_i，定义它的type为int，那么在使用这个字段的时候，任务以_i结果的字段都被认为符合这个定义。如name_i, school_i

view plain print ?

< dynamicField name = "*_i" type = "int" indexed = "true" stored = "true" />
< dynamicField name = "*_s" type = "string" indexed = "true" stored = "true" />
< dynamicField name = "*_l" type = "long" indexed = "true" stored = "true" />
< dynamicField name = "*_t" type = "text" indexed = "true" stored = "true" />
< dynamicField name = "*_b" type = "boolean" indexed = "true" stored = "true" />
< dynamicField name = "*_f" type = "float" indexed = "true" stored = "true" />
< dynamicField name = "*_d" type = "double" indexed = "true" stored = "true" />
< dynamicField name = "*_dt" type = "date" indexed = "true" stored = "true" />

　　
　　
　　
　　
　　schema.xml文档注释中的信息：
　　
　　
　　
　　1、为了改进性能，可以采取以下几种措施：

将所有只用于搜索的，而不需要作为结果的field（特别是一些比较大的field）的stored设置为false
将不需要被用于搜索的，而只是作为结果返回的field的indexed设置为false
删除所有不必要的copyField声明
为了索引字段的最小化和搜索的效率，将所有的 text fields的index都设置成field，然后使用copyField将他们都复制到一个总的 text field上，然后对他进行搜索。
为了最大化搜索效率，使用java编写的客户端与solr交互（使用流通信）
在服务器端运行JVM（省去网络通信），使用尽可能高的Log输出等级，减少日志量。

　　2、< schema name =" example " version =" 1.2 " >

name：标识这个schema的名字
version：现在版本是1.2

　　3、filedType
　　
　　< fieldType name =" string " class =" solr.StrField " sortMissingLast =" true " omitNorms =" true " />

name：标识而已。
class和其他属性决定了这个fieldType的实际行为。（class以solr开始的，都是在org.appache.solr.analysis包下）

　　可选的属性：

sortMissingLast和sortMissingFirst两个属性是用在可以内在使用String排序的类型上（包括：string,boolean,sint,slong,sfloat,sdouble,pdate）。
sortMissingLast="true"，没有该field的数据排在有该field的数据之后，而不管请求时的排序规则。
sortMissingFirst="true"，跟上面倒过来呗。
2个值默认是设置成false

　　
　　StrField类型不被分析，而是被逐字地索引/存储。
　　StrField和TextField都有一个可选的属性“compressThreshold”，保证压缩到不小于一个大小（单位：char）
　　
　　
　　< fieldType name =" text " class =" solr.TextField " positionIncrementGap =" 100 " >
　　
　　solr.TextField 允许用户通过分析器来定制索引和查询，分析器包括一个分词器（tokenizer）和多个过滤器（filter）
　　

positionIncrementGap：可选属性，定义在同一个文档中此类型数据的空白间隔，避免短语匹配错误。

　　
　　
　　< tokenizer class =" solr.WhitespaceTokenizerFactory " />
　　空格分词，精确匹配。
　　
　　
　　< filter class =" solr.WordDelimiterFilterFactory " generateWordParts =" 1 " generateNumberParts =" 1 "catenateWords =" 1 " catenateNumbers =" 1 " catenateAll =" 0 " splitOnCaseChange =" 1 " />
　　在分词和匹配时，考虑 "-"连字符，字母数字的界限，非字母数字字符，这样 "wifi"或"wi fi"都能匹配"Wi-Fi"。
　　
　　< filter class =" solr.SynonymFilterFactory " synonyms =" synonyms.txt " ignoreCase =" true " expand ="true " />
　　同义词
　　
　　< filter class =" solr.StopFilterFactory " ignoreCase =" true " words =" stopwords.txt "enablePositionIncrements =" true " />
　　在禁用字（stopword）删除后，在短语间增加间隔
　　stopword：即在建立索引过程中（建立索引和搜索）被忽略的词，比如is this等常用词。在conf/stopwords.txt维护。
　　
　　
　　
　　4、fields
　　
　　< field name =" id " type =" string " indexed =" true " stored =" true " required =" true " />

name：标识而已。
type：先前定义的类型。
indexed：是否被用来建立索引（关系到搜索和排序）
stored：是否储存
compressed：[false]，是否使用gzip压缩（只有TextField和StrField可以压缩）
mutiValued：是否包含多个值
omitNorms：是否忽略掉Norm，可以节省内存空间，只有全文本field和need an index-time boost的field需要norm。（具体没看懂，注释里有矛盾）
termVectors：[false]，当设置true，会存储 term vector。当使用MoreLikeThis，用来作为相似词的field应该存储起来。
termPositions：存储 term vector中的地址信息，会消耗存储开销。
termOffsets：存储 term vector 的偏移量，会消耗存储开销。
default：如果没有属性需要修改，就可以用这个标识下。

　　
　　< field name =" text " type =" text " indexed =" true " stored =" false " multiValued =" true " />
　　包罗万象（有点夸张）的field，包含所有可搜索的text fields，通过copyField实现。
　　
　　< copyField source =" cat " dest =" text " />

< copyField source =" name " dest =" text " />

< copyField source =" manu " dest =" text " />

< copyField source =" features " dest =" text " />

< copyField source =" includes " dest =" text " />　　在添加索引时，将所有被拷贝field（如cat）中的数据拷贝到text field中
　　作用：

将多个field的数据放在一起同时搜索，提供速度
将一个field的数据拷贝到另一个，可以用2种不同的方式来建立索引。

　　
　　
　　< dynamicField name =" *_i " type =" int " indexed =" true " stored =" true " />
　　
　　如果一个field的名字没有匹配到，那么就会用动态field试图匹配定义的各种模式。

"*"只能出现在模式的最前和最后
较长的模式会被先去做匹配
如果2个模式同时匹配上，最先定义的优先

　　
　　< dynamicField name =" * " type =" ignored " multiValued=" true " />
　　如果通过上面的匹配都没找到，可以定义这个，然后定义个type，当String处理。（一般不会发生）
　　但若不定义，找不到匹配会报错。
　　
　　
　　5、其他一些标签
　　
　　< uniqueKey > id
　　文档的唯一标识，必须填写这个field（除非该field被标记required="false"），否则solr建立索引报错。
　　< defaultSearchField > text
　　如果搜索参数中没有指定具体的field，那么这是默认的域。
　　< solrQueryParser defaultOperator =" OR " />
　　配置搜索参数短语间的逻辑，可以是"AND|OR"。
　　
　　
　　
　　二、solrconfig.xml
　　
　　1、索引配置
　　
　　mainIndex 标记段定义了控制Solr索引处理的一些因素.

　　useCompoundFile：通过将很多 Lucene 内部文件整合到单一一个文件来减少使用中的文件的数量。这可有助于减少 Solr 使用的文件句柄数目，代价是降低了性能。除非是应用程序用完了文件句柄，否则 false 的默认值应该就已经足够。
useCompoundFile：通过将很多Lucene内部文件整合到一个文件，来减少使用中的文件的数量。这可有助于减少Solr使用的文件句柄的数目，代价是降低了性能。除非是应用程序用完了文件句柄，否则false的默认值应该就已经足够了。
mergeFacor：决定Lucene段被合并的频率。较小的值（最小为2）使用的内存较少但导致的索引时间也更慢。较大的值可使索引时间变快但会牺牲较多的内存。（典型的时间与空间的平衡配置）
maxBufferedDocs：在合并内存中文档和创建新段之前，定义所需索引的最小文档数。段是用来存储索引信息的Lucene文件。较大的值可使索引时间变快但会牺牲较多内存。
maxMergeDocs：控制可由Solr合并的 Document 的最大数。较小的值（

账号		自动登录	找回密码
密码			立即注册

Centos6.5×64安装配置openmeetings3.0.3详

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

[经验分享] 关于solr schema.xml 和solrconfig.xml的解释

扫码加入运维网微信交流群