设为首页 收藏本站
查看: 961|回复: 0

[经验分享] 企业级搜索引擎Solr 第三章 索引数据(Indexing Data)[1]

[复制链接]

尚未签到

发表于 2015-7-18 10:15:16 | 显示全部楼层 |阅读模式
  转载:http://quweiprotoss.wap.blog.163.com/
  Push data to Solr or have Solr pull it
         尽管一个应用通过HTTP方式与Solr通信,并不意味着它需要将文档通过HTTP发送给Solr。Solr支持一种它称为remote streaming的方式,这种方式需要提供给它一个URL,它可以是一个HTTP URL,但一般它是一个基于文件系统的URL,基于文件系统的URL,可以在数据已经在Solr所在的本机或是在网络驱动中时可以使用。这种方式减少了HTTP方式的代价。另一种方式是让Solr通过DataImportHandler去拉取数据,这种方式可以从数据库和其它来源拉取数据。DIH提供了一个可扩展的框架,它可以扩展以适应自定义的数据源。
  Data formats
         下面是多种在Solr用来建索引的格式:
  l  Solr的Update-XML:Solr接受一种通过XML格式表达的Solr特定的格式。它也有删除,优化和提交的命令。
  ?  其它XML:任意的XML带上一个XSLT文件给Solr,Solr会将XML转化成Update-XML格式以进行后面的处理。
  ?  Solr的Update-JSON:Solr的Update-XML的一个JavaScript Object Notation变形。更多细节见http://wiki.apache.org/solr/UpdateJSON。
  ?  Java-Bin:Solr的Update-XML的一个高效的二进制变形。正式地只有SolrJ客户端API支持,但也有第三方的Ruby支持。
  ?  CSV:逗号(或其它符号)分隔符的格式。
  ?  富文档:大多数常见的文件格式,比如PDF,XLS,DOC,PPT。文本和元数据都可以从这些格式中抽取出来,并放入Solr的域中。这可以通过Solr Cell Contrib模式完成。
  我们将通过把MusicBrainz的数据以XML,CSV和数据库的方式导入Solr来展示Solr的能力。其它的例子将展示通过DIH将爬取的文件导入,和通过Solr Cell导入。但是通常来说一个应用只会用一种格式来导入。
  在我们介绍这些方法之前,我们先介绍一下cURL和remote streaming,这两个是基本知识。
  HTTP POSTing options to Solr
         Solr通过HTTP POST接收命令,还可以接收文档数据。
         发送HTTP POST的方法之一是使用UNIX命令行工具curl,我们将用它来介绍例子。另一个跨平台的工具是Solr中post.jar,它在Solr的example/exampledocs目录下。要得到一些使用信息,用下面的命令运行:
  >> java –jar example/exampledocs/post.jar -help
         有几种让Solr索引数据的方式,并所有的方式都是通过HTTP POST:
  l  通过POST方式发送数据。curl的--data-binary参数可以做到这点,并会带一个与格式相符的content-type头。
  l  发送一些类似一个HTML格式的键值对。Curl使用-F来进行。如果你不是在数据库中得到数据,你可以用下面的方式来进行:
  ?  将数据放在stream.body参数中。如果它比较小,也许小于1M,这种方式没有问题。大小的限制是在solrconfig.xml的multipartUpdateLimitInKB中,默认是2GB。如果你想提高限制,你应该再考虑一下你的方式。
  ?  用stream.file参数引用Solr服务器上的一个本地文件,或是通过stream.url参数通过一个URL去取数据。这些方式Solr称之为remote streaming。
  下面是第一种选择的例子。我们假设有一个artists.xml在当前目录。我们可以用下面的命令Post这个文件。
  >> curl http://localhost:8983/solr/mbartists/update -H 'Contenttype:text/xml; charset=utf-8' --data-binary @artists.xml
         如果它成功了,你会得到下面的输出:
  
  
  
  0128
  
  
         要用stream.body来完成上例,你可以写:
  curl http://localhost:8983/solr/mbartists/update -F stream.body=@artists.xml
         在两个例子中,@符号指示curl从文件中取得数据。如果XML比较短,你可以直接在命令行中写:
  curl http://localhost:8983/solr/mbartists/update -F stream.body=' '
         注意在值中有一个空格,这是有意为之的。在本例中,curl对待@和

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-87900-1-1.html 上篇帖子: Solr添加paoding分词器 下篇帖子: Solr从Mongodb索引数据(上) 借助mongodb-jdbc和配置JdbcDataSource
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表