solr项目学习(官方文档学习）

我积极解决 · 发表于 2015-7-18 07:58:27

　　一。getting started
　　1.启动solr ./solr start
　　2.创建solr进程 ./solr create -c [进程名],e.g. ./solr create -c test
　　3.添加文档 ./post [进程名] -c [文档目录] e.g. ./post -c test /home
　　4.查询 http://211.87.234.166:8983/solr/test/select?q=dog
　　结果域限定　fl=**,**,**
　　指定查询域 select?q=name:black
　　设定域值范围 select?q=price:[0%20TO%20400]
　　层面搜索（faceted）——可理解为group by
　　e.g.搜索结果仅显示txt类型文件 &facet=true&facet.field=stream_content_type&fq=stream_content_type:text/plain
　　5.solr应用开发步骤
　　1.定义纲要（schema）,即定义solr数据库中有哪些域（field），可以类比关系数据库的设计,//一般的文件搜索项目可以使用默认的schema？
　　2.在服务器上部署solr
　　3.添加和维护搜索文件（添加维护索引）　
　　4.开发搜索功能
　　6.solr的一些特性
　　-solr query为http请求，返回为结构化的文档，如xml，json等，方便多种语言使用，详见客户端api
　　-sor是基于lucene的高性能，全功能搜索引擎，详见：搜索
　　-solrCloud具有大规模数据分布式处理能力，主要为分片技术(Sharding)和复制技术(Replication)
　　7.solr配置文件：solr.xml,solrconfig.xml,schema.xml
　　8.solr start命令 start,restart，参数见p14-p15,status,Healthcheck p18,create p20，solrCloud 配置设置 p21,delete
　　9.solr版本信息：略
　　
　　二。Using the Solr Administration User Interface
　　略
　　
　　三Documents, Fields, and Schema Design
　　solr的初步理解：solr把所有文件做成doc对象，每个doc对象有很多field，可以设定field怎么分析，分词，是否索引，是否存储等，在schema中配置field type和field
　　 1.field type：理解为域类型，如作者未string，价格未float等
　　field type定义有四种信息
　　　　1.name
　　　　2.class name（同一种类，如text，可以用不同的分析器，所以有多个type）
　　　　3.分析器（class为TextField）
　　　　4.特性，理解为参数设定
　　2.type特性，见p43-p44
　　　　1.类特性
　　　　2.通用特性
　　　　3.被field继承的默认特性
　　3.内置类
　　二进制，bool，collation，currency，date，external file，enum，ICUCollation（文本排序），LaLon（空间搜索），Point(空间搜索)，PreAnalyzedField（无预处理类？），RandomSortField，SpatialRecursivePrefixTreeFieldType，StrField，TextField，。。。。。P45-P46
　　4.介绍currency，Date，Enum，External Files，用到时再看,
　　5.Field Properties by Use Case，具体操作的一些参数设置P53
　　6.定义field
　　
　　7.Copying Fields
　　例如同时索引查询标题和内容，把标题字段和内容字段copy到一个新的字段即可
　　8.Dynamic Fields
　　field name 带通配符，提高健壮性
　　9.schema其他内容
　　　　*unique key：主键
　　　　*Default Search Field：默认搜索字段
　　　　*Query Parser Default Operator ：query多词的默认分析操作
　　　　*Similarity：用于doc评分？？？
　　10.schema API:Http Get Post对schema操作，略
　　11.DocValues：make lookups for faceting, sorting, and grouping much faster,列排的fields，
　　11.Schemaless Mode：快速搜索简单数据，略，p81
　　
　　四。Understanding Analyzers, Tokenizers, and Filters
　　1.概述
　　Field analyzers：分析：一系列分词器和过滤器的组合
　　Tokenizers 分词器
　　Filter：过滤器，——对分词结果再进行处理
　　*分析器：实质是分词+过滤，可分为索引和查询两个过程
　　*分词器：预处理+分词+元数据（metadata，分词位置信息，用于高亮）
　　*过滤器：对分词结果过滤，可以形成过滤链，通用过滤器先过滤，具体的过滤器后过滤，如统一大小写，stemmer提取词干算法等
　　2.分词器：详细介绍了solr的各种内置分词器，P91，有空再详细看
　　3.过滤器：详细介绍了solr的各种内置过滤器，p99
　　4.CharFilterFactories：在分词器之前得到过滤器（预处理）,p126
　　5.Language Analysis：和语言相关的知识，与中文分词关系不大，以后看P130
　　6.语音匹配Phonetic Matching：不支持中文，略过 P155
　　
　　五。Indexing and Basic Data Operations
　　*可以用SolrJ等API更新索引，详见“客户端API”
　　1. Introduction to Solr Indexing
　　solr获取数据的来源：XML文件，CSV，数据库，其他常用格式文件。
　　*获取索引的三种最常用的方式
　　1.使用Solr Cell框架（基于Apache Tika）加入文档
　　2.通过http想solr服务器发送xml文件
　　3.客户端API Client API，编写应用，如CMS，Java API是最好的选择
　　Solr最基本的数据结构：a document containing multiple fields
　　如果某个域的内容需要索引，那么分析过程就会介入，进行分析（分词，过滤），如果文件有未定义域，则会匹配到动态域或直接忽略。
　　*curl命令完成http POST和GET:apt-get install curl
　　curl通过http，ftp等协议上传post，获取get数据
　　注：curl仅用于学习和实验，实际应用中使用Solr Cell等其它方法
　　除了curl，还可以用wget，Perl中的GETS，POSTS等
　　
　　2.Post Tool：简单的命令行工具向solr集合/中添加内容。
　　若添加的为本机目录，实际上自动调用tika等工具分析文档，建立索引。
　　还可以用post命令直接传入xml命令操作索引，例如：
　　bin/post -c gettingstarted -d '42'　　
　　post还可以定义位置后缀名文件的类型，之后solr就会调用相应的handler进行处理，还可以向handler穿参数等等，具体用到的时候可以再仔细学习。
　　post命令来源于Java程序SimplePostTool，位于/example/exampledocs/post.jar中。
　　　　问题：该程序源代码，如何把java程序做成linux命令？
　　3.Uploading Data with Index Handlers
　　Index Handler是一种请求处理器Request Handlers来向index数据库中添加，删除，更新文档。
　　本节介绍如何用xml，josn，csv添加，删除，更新文档？？？
　　常用的请求处理器配制方法未把路径映射到url中，也可以通过配置requestDispatcher
　　（1）配置UpdateRequestHandler Configuration，默认配置如下
　　
　　(2) XML格式更新索引：
　　xml add标签直接添加一个doc类到索引中，但所有的域都要手动添加P168
　　标签参数：add：commitwithin，overwrite等
　　doc，field boost：详见搜索一章
　　问题：如何只给文件位置，让tika自动提取元数据到fields中？可能这种方法不行，需要看下一节
　　实验：使用adminUI，成功添加doc，在更新或后，成功索引到添加的doc
　　使用curl同样可以完成操作(没试)P170
　　xml还支持删除（按主键删除，query删除），rollback：
　　用XSLT转换xml：略P170
　　(3)xml之后详细介绍了json，csv更新索引，没看，需要的时候再看！
　　
　　
　　
　　4.Uploading Data with Solr Cell using Apache Tika ——核心技术
　　　　Solr使用tika把各种文件格式的分析器合并到solr自身，包括PDFBOS，apache POImicosoft的格式)
　　solr的ExtractingRequestHandler使用tika抽取和索引文件。此框架被称为Solr Content Extraction Library，可以替换成自己的内容处理器。（1）核心概念
　　*Tika自动识别文档类型，抽取内容
　　*Tika生产XHTML流送给SAX内容处理器解析
　　*Solr相应Tika结果，写入域值并建立索引
　　*Tika提供元数据，Tika将所有文本结果加到content域，可以映射tika元数据域到solr域（怎么映射？？？）,还可以boost？？
　　*可以手动传入，强行修改域值(很有用，可以用来实现一部分域值需要手动传入的用户需求)
　　*可以使用Xpath表达式限制输出内容（怎么用？？？）
　　注意：如果Tika解析失败，ExtractingRequestHandler就会抛出异常
　　（2）使用techproducts演示tika使用
　　curl命令提交文档：
　　curl　　'http://localhost:8983/solr/techproducts/update/extract?literal.id=doc1&commit=true'
　　-F "myfile=@example/exampledocs/solr-word.pdf"
　　命令解释：
　　literal.id：手动输入域值
　　commit=true：索引后立刻提交，如果提交多个文档，提交完成后再commit
　　-F curl提交数据的参数
　　myfile= ：提交文档的路径，可以问绝对路径或相对路径
　　可以使用带参数的post命令实现相同功能。　　
　　
　　　　默认未定义域值丢弃，可以修改solrconfig进行配置或直接传参数设置

　　（3）输入参数表P185　　
　　（4）处理顺序
　　　　1.Tika生成域值或使用手动输入值
　　　　2.各种map
　　　　3.uprefix处理未识别域
　　（5）SolrConfig：配置ExtractHandler
　　（6）加密文件：提供密码可以处理
　　（7）例子：略
　　实际开发中使用SolrJ应该最为方便，如上传文档，表单获取comment，solrJ把comment作为参数传入并交给tika自动处理
　　5.Uploading Structured Data Store Data with the Data Import Handler
　　添加数据库内容索引，后补
　　6.Updating Parts of Documents：索引的维护和更新
　　solr提供两种方法处理已被索引的文档又被修改的情况
　　　　1.原子更新atomic updates：改变一个或几个域而不用重新index　
　　　　　　solr提供一些更新的语句，如set，add，remove等P210，SolrJ如何更新索引？？？
　　　　原子更新是手工更新，自动更新机制应该更有用！
　　　　2.optimistic concurrency or optimistic locking ：与nosql数据库有关
　　　　确保当前更新的文档不被其他程序修改，需要_version_域
　　　　工作流程：1一个客户端从solr上获取文档
　　　　　　　　 2客户端修改文档
　　　　　　　　 3客户端重新提交文档到solr
　　　　　　　　　4.检测到version冲突，重新index　
　　　　　囧！到底怎么用根本没讲清楚！
　　　　*Document Centric Versioning Constraints：
　　　　如果用户使用外置的用户自己的version,那么更新请求就会被拒绝，此时使用DocBasedVersionConstraintsProcessorFactory
　　注：如何自动更新用户的文档到索引中还是个很重要的问题！
　　（是采用用户提交的方式还是系统自动检测的方式！）
　　
　　7.De-Duplication——删除重复
　　防止复制的文档进入索引？
　　使用如md5的hash算法
　　需要配置！
　　8.Detecting Languages During Indexing
　　
　　9.
　　
　　五. Searching
　　1.综述
　　Solr提供request handler处理query请求，它调用query parser处理搜索query。
　　默认为DisMax，标准为Lucene query parser，还有eDisMax
　　一个query parser的输入可以有：
　　search string：搜索的项
　　parameter：参数，又称为query filter，用于呈现用户的特定搜索请求
　　solr提供强大的高亮机制
　　slor可以配置成返回结果的片段
　　solr提供两种分组方法：Faceting和Clustering
　　2.Relevance：相关性（搜索结果评价）
　　后补
　　3.
　　
　　
　　spell check：
　　拼写检查提供内置的查询推荐，来源于索引数据或外部文件
　　1.IndexBaseedSpellChecker：从solr index复制field到spellchecker index
　　2.DirectSolrSpellChecker：直接使用solr index进行拼写检查
　　有一些默认配置，如距离度量使用编辑距离等
　　3.FileBasedSpellChecker：拼写检查来自外部文件
　　4.WordBreakSolrSpellChecker：合并或拆开相邻的查询单词，
　　配好拼写检查，还要在RequestHandler中陪使用的拼写检查
　　英文拼写检查在参考techproduct的例子后可以配置成功，但是中文拼写检查可能需要不同的配置，暂时不细看了。
　　要实现推荐功能，实际上用的是suggester！
　　
　　Suggester：
　　
　　
　　***添加中文分词
　　这个把我坑的不轻。按照官方文档把jar包加到/server/lib网页端报错，ClassNotFound，害我浪费了好长时间。应该把jar报加到/server/solr-webapp/webapp/WEB-INF/lib中,加好之后真是泪牛满面，终于明白程序员为什么要加班到两三点然后猝死了。
　　问题：jar加入web-app，在analysis的时候可以用，在索引的时候是否可以，是否要配置solrconfig里的lib
　　主要流程如下：
　　1.添加分词jar包，这里我用了solr自带的smartcn分词器，在contrib文件夹下，复制到web-app的lib下即可
　　2.修改schema文件，位于/server/solr/项目名/conf/managed-schema,添加新的fieldType，并把分析器，过滤器？设置成smartcn里的类即可，这里我用了官方文档的配置，P138
　　3.query时使用smartcn分词：To do
　　
　　
　　***学习过程中遇到需要学习的技术问题
　　0.搜索原理：信息检索相关知识：text retrieval and search engine，nlp
　　1.Java相关：基本语法，Servlet,工厂模式，JUnit
　　2.xml相关：xml为solr使用最多的格式，所以相对较为重要，还报告xhtml,sax,xpath等等内容
　　3.Lucene原理，Lucene java源码，java二次程序开发
　　4.HTTP协议，GET，POST API
　　5.SolrCloud相关：Zookeeper，hadoop。。。
　　6.版本管理工具SVN，编译工具Ant，Maven
　　7.其他：正则表达式，tika
　　
　　ExtractingRequestHandler

账号		自动登录	找回密码
密码			立即注册

大疆运维招人啦，

C++ :try 语句块和异常处理

C++的多态

Red Hat RHCE 8 (EX294) Cert Guide

Java/C++ 区别：看完这一篇，就够用！

别再用过时库了！这 13 个顶级 C++ 库才是

c++ size_t 和 int 的区别

[经验分享] solr项目学习(官方文档学习）

浏览过的版块

扫码加入运维网微信交流群