设为首页 收藏本站
查看: 1738|回复: 0

[经验分享] solr项目学习(官方文档学习)

[复制链接]
累计签到:1 天
连续签到:1 天
发表于 2015-7-18 07:58:27 | 显示全部楼层 |阅读模式
  一。getting started
  1.启动solr ./solr start
  2.创建solr进程 ./solr create -c [进程名],e.g.    ./solr create -c test
  3.添加文档 ./post [进程名]  -c [文档目录] e.g.     ./post -c test /home
  4.查询 http://211.87.234.166:8983/solr/test/select?q=dog
  结果域限定 fl=**,**,**
  指定查询域   select?q=name:black
  设定域值范围 select?q=price:[0%20TO%20400]
  层面搜索(faceted)——可理解为group by
  e.g.搜索结果仅显示txt类型文件  &facet=true&facet.field=stream_content_type&fq=stream_content_type:text/plain
  5.solr应用开发步骤
  1.定义纲要(schema),即定义solr数据库中有哪些域(field),可以类比关系数据库的设计,//一般的文件搜索项目可以使用默认的schema?
  2.在服务器上部署solr
  3.添加和维护搜索文件(添加维护索引) 
  4.开发搜索功能
  6.solr的一些特性
  -solr query为http请求,返回为结构化的文档,如xml,json等,方便多种语言使用,详见客户端api
  -sor是基于lucene的高性能,全功能搜索引擎,详见:搜索
  -solrCloud具有大规模数据分布式处理能力,主要为分片技术(Sharding)和复制技术(Replication)
  7.solr配置文件:solr.xml,solrconfig.xml,schema.xml
  8.solr start命令 start,restart,参数见p14-p15,status,Healthcheck p18,create p20,solrCloud 配置设置 p21,delete
  9.solr版本信息:略
  
  二。Using the Solr Administration User Interface
  略
  
  三Documents, Fields, and Schema Design
  solr的初步理解:solr把所有文件做成doc对象,每个doc对象有很多field,可以设定field怎么分析,分词,是否索引,是否存储等,在schema中配置field type和field
   1.field type:理解为域类型,如作者未string,价格未float等
  field type定义有四种信息
    1.name
    2.class name(同一种类,如text,可以用不同的分析器,所以有多个type)
    3.分析器(class为TextField)
    4.特性,理解为参数设定
  2.type特性 ,见p43-p44
    1.类特性
    2.通用特性
    3.被field继承的默认特性
  3.内置类
  二进制,bool,collation,currency,date,external file,enum,ICUCollation(文本排序),LaLon(空间搜索),Point(空间搜索),PreAnalyzedField(无预处理类?),RandomSortField,SpatialRecursivePrefixTreeFieldType,StrField,TextField,。。。。。P45-P46
  4.介绍currency,Date,Enum,External Files,用到时再看,
  5.Field Properties by Use Case,具体操作的一些参数设置P53
  6.定义field
  
  7.Copying Fields
  例如同时索引查询标题和内容,把标题字段和内容字段copy到一个新的字段即可
  8.Dynamic Fields
  field name 带通配符,提高健壮性
  9.schema其他内容
    *unique key:主键
    *Default Search Field:默认搜索字段
    *Query Parser Default Operator :query多词的默认分析操作
    *Similarity:用于doc评分???
  10.schema API:Http Get Post对schema操作,略
  11.DocValues:make lookups for faceting, sorting, and grouping much faster,列排的fields,
  11.Schemaless Mode:快速搜索简单数据,略,p81
  
  四。Understanding Analyzers, Tokenizers, and Filters
  1.概述
  Field analyzers:分析:一系列分词器和过滤器的组合
  Tokenizers 分词器
  Filter:过滤器,——对分词结果再进行处理
  *分析器:实质是分词+过滤,可分为索引和查询两个过程
  *分词器:预处理+分词+元数据(metadata,分词位置信息,用于高亮)
  *过滤器:对分词结果过滤,可以形成过滤链,通用过滤器先过滤,具体的过滤器后过滤,如统一大小写,stemmer提取词干算法等
  2.分词器:详细介绍了solr的各种内置分词器,P91,有空再详细看
  3.过滤器:详细介绍了solr的各种内置过滤器,p99
  4.CharFilterFactories:在分词器之前得到过滤器(预处理),p126
  5.Language Analysis:和语言相关的知识,与中文分词关系不大,以后看P130
  6.语音匹配Phonetic Matching:不支持中文,略过 P155
  
  五。Indexing and Basic Data Operations
  *可以用SolrJ等API更新索引,详见“客户端API”
  1. Introduction to Solr Indexing
  solr获取数据的来源:XML文件,CSV,数据库,其他常用格式文件。
  *获取索引的三种最常用的方式
  1.使用Solr Cell框架(基于Apache Tika)加入文档
  2.通过http想solr服务器发送xml文件
  3.客户端API Client API,编写应用,如CMS,Java API是最好的选择
  Solr最基本的数据结构:a document containing multiple fields
  如果某个域的内容需要索引,那么分析过程就会介入,进行分析(分词,过滤),如果文件有未定义域,则会匹配到动态域或直接忽略。
  *curl命令完成http POST和GET:apt-get install curl
  curl通过http,ftp等协议上传post,获取get数据
  注:curl仅用于学习和实验,实际应用中使用Solr Cell等其它方法
  除了curl,还可以用wget,Perl中的GETS,POSTS等
  
  2.Post Tool:简单的命令行工具向solr集合/中添加内容。
  若添加的为本机目录,实际上自动调用tika等工具分析文档,建立索引。
  还可以用post命令直接传入xml命令操作索引,例如:
  bin/post -c gettingstarted -d '42'  
  post还可以定义位置后缀名文件的类型,之后solr就会调用相应的handler进行处理,还可以向handler穿参数等等,具体用到的时候可以再仔细学习。
  post命令来源于Java程序SimplePostTool,位于/example/exampledocs/post.jar中。
    问题:该程序源代码,如何把java程序做成linux命令?
  3.Uploading Data with Index Handlers
  Index Handler是一种请求处理器Request Handlers来向index数据库中添加,删除,更新文档。
  本节介绍如何用xml,josn,csv添加,删除,更新文档???
  常用的请求处理器配制方法未把路径映射到url中,也可以通过配置requestDispatcher
  (1)配置UpdateRequestHandler Configuration,默认配置如下
  
  (2) XML格式更新索引:
  xml add标签直接添加一个doc类到索引中,但所有的域都要手动添加P168
  标签参数:add:commitwithin,overwrite等
  doc,field boost:详见搜索一章
  问题:如何只给文件位置,让tika自动提取元数据到fields中?可能这种方法不行,需要看下一节
  实验:使用adminUI,成功添加doc,在更新或后,成功索引到添加的doc
  使用curl同样可以完成操作(没试)P170
  xml还支持删除(按主键删除,query删除),rollback:
  用XSLT转换xml:略P170
  (3)xml之后详细介绍了json,csv更新索引,没看,需要的时候再看!
  
  
  
  4.Uploading Data with Solr Cell using Apache Tika ——核心技术
    Solr使用tika把各种文件格式的分析器合并到solr自身,包括PDFBOS,apache POImicosoft的格式)
  solr的ExtractingRequestHandler使用tika抽取和索引文件。此框架被称为Solr Content Extraction Library,可以替换成自己的内容处理器。(1)核心概念
  *Tika自动识别文档类型,抽取内容
  *Tika生产XHTML流送给SAX内容处理器解析
  *Solr相应Tika结果,写入域值并建立索引
  *Tika提供元数据,Tika将所有文本结果加到content域,可以映射tika元数据域到solr域(怎么映射???),还可以boost??
  *可以手动传入,强行修改域值(很有用,可以用来实现一部分域值需要手动传入的用户需求)
  *可以使用Xpath表达式限制输出内容(怎么用???)
  注意:如果Tika解析失败,ExtractingRequestHandler就会抛出异常
  (2)使用techproducts演示tika使用
  curl命令提交文档:
  curl  'http://localhost:8983/solr/techproducts/update/extract?literal.id=doc1&commit=true'
  -F "myfile=@example/exampledocs/solr-word.pdf"
  命令解释:
  literal.id:手动输入域值
  commit=true:索引后立刻提交,如果提交多个文档,提交完成后再commit
  -F curl提交数据的参数
  myfile= :提交文档的路径,可以问绝对路径或相对路径
  可以使用带参数的post命令实现相同功能。  
  
    默认未定义域值丢弃,可以修改solrconfig进行配置或直接传参数设置

  (3)输入参数表P185  
  (4)处理顺序
    1.Tika生成域值或使用手动输入值
    2.各种map
    3.uprefix处理未识别域
  (5)SolrConfig:配置ExtractHandler
  (6)加密文件:提供密码可以处理
  (7)例子:略
  实际开发中使用SolrJ应该最为方便,如上传文档,表单获取comment,solrJ把comment作为参数传入并交给tika自动处理
  5.Uploading Structured Data Store Data with the Data Import Handler
  添加数据库内容索引,后补
  6.Updating Parts of Documents:索引的维护和更新
  solr提供两种方法处理已被索引的文档又被修改的情况
    1.原子更新atomic updates:改变一个或几个域而不用重新index 
      solr提供一些更新的语句,如set,add,remove等P210,SolrJ如何更新索引???
    原子更新是手工更新,自动更新机制应该更有用!
    2.optimistic concurrency or optimistic locking :与nosql数据库有关
    确保当前更新的文档不被其他程序修改,需要_version_域
    工作流程:1一个客户端从solr上获取文档
            2客户端修改文档
            3客户端重新提交文档到solr
         4.检测到version冲突,重新index 
     囧!到底怎么用根本没讲清楚!
    *Document Centric Versioning Constraints:
    如果用户使用外置的用户自己的version,那么更新请求就会被拒绝,此时使用DocBasedVersionConstraintsProcessorFactory
  注:如何自动更新用户的文档到索引中还是个很重要的问题!
  (是采用用户提交的方式还是系统自动检测的方式!)
  
  7.De-Duplication——删除重复
  防止复制的文档进入索引?
  使用如md5的hash算法
  需要配置!
  8.Detecting Languages During Indexing
  
  9.
  
  五. Searching
  1.综述
  Solr提供request handler处理query请求,它调用query parser处理搜索query。
  默认为DisMax,标准为Lucene query parser,还有eDisMax
  一个query parser的输入可以有:
  search string:搜索的项
  parameter:参数,又称为query filter,用于呈现用户的特定搜索请求
  solr提供强大的高亮机制
  slor可以配置成返回结果的片段
  solr提供两种分组方法:Faceting和Clustering
  2.Relevance:相关性(搜索结果评价)
  后补
  3.
  
  
  spell check:
  拼写检查提供内置的查询推荐,来源于索引数据或外部文件
  1.IndexBaseedSpellChecker:从solr index复制field到spellchecker index
  2.DirectSolrSpellChecker:直接使用solr index进行拼写检查
  有一些默认配置,如距离度量使用编辑距离等
  3.FileBasedSpellChecker:拼写检查来自外部文件
  4.WordBreakSolrSpellChecker:合并或拆开相邻的查询单词,
  配好拼写检查,还要在RequestHandler中陪使用的拼写检查
  英文拼写检查在参考techproduct的例子后可以配置成功,但是中文拼写检查可能需要不同的配置,暂时不细看了。
  要实现推荐功能,实际上用的是suggester!
  
  Suggester:
  
  
  ***添加中文分词
  这个把我坑的不轻。按照官方文档把jar包加到/server/lib网页端报错,ClassNotFound,害我浪费了好长时间。应该把jar报加到/server/solr-webapp/webapp/WEB-INF/lib中,加好之后真是泪牛满面,终于明白程序员为什么要加班到两三点然后猝死了。
  问题:jar加入web-app,在analysis的时候可以用,在索引的时候是否可以,是否要配置solrconfig里的lib
  主要流程如下:
  1.添加分词jar包,这里我用了solr自带的smartcn分词器,在contrib文件夹下,复制到web-app的lib下即可
  2.修改schema文件,位于/server/solr/项目名/conf/managed-schema,添加新的fieldType, 并把分析器,过滤器?设置成smartcn里的类即可,这里我用了官方文档的配置,P138
  3.query时使用smartcn分词:To do
  
  
  ***学习过程中遇到需要学习的技术问题
  0.搜索原理:信息检索相关知识:text retrieval and search engine,nlp
  1.Java相关:基本语法,Servlet,工厂模式,JUnit
  2.xml相关:xml为solr使用最多的格式,所以相对较为重要,还报告xhtml,sax,xpath等等内容
  3.Lucene原理,Lucene java源码,java二次程序开发
  4.HTTP协议,GET,POST API
  5.SolrCloud相关:Zookeeper,hadoop。。。
  6.版本管理工具SVN,编译工具Ant,Maven
  7.其他:正则表达式,tika
  
  ExtractingRequestHandler

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-87825-1-1.html 上篇帖子: Solr学习01:Solr基础知识 下篇帖子: 【Nutch2.3基础教程】集成Nutch/Hadoop/Hbase/Solr构建搜索引擎:安装及运行【集群环境】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表