设为首页 收藏本站
查看: 1897|回复: 0

[经验分享] 全文检索(SOLR)前端应用浅析续 LWE-CORE分析

[复制链接]

尚未签到

发表于 2015-7-16 13:29:48 | 显示全部楼层 |阅读模式
  上一篇对Lucid的应用简要进行了介绍,现在对LWE-CORE分析一下
  lucidworks enterprise可以免费使用,但不开源,了解一下这个的结构对于基于SOLR的应用有很大的帮助,lucidworks enterprise基于SOLR的应用叫LWE-CORE
  上一篇 全文检索(SOLR)前端应用浅析 http://www.iyunv.com/2018/archive/2011/07/29/2121519.html
启动、停止
  start.bat中的
  start "LucidWorks LWE-Core" /B "%JVM%" %JAVA_OPTS% %APP_OPTS% %JAVA_MEMORY_OPTS% %JETTY_OPTS% %MISC_OPTS% %MISC_OPTS2% -Djetty.home=jetty -jar jetty/start.jar 1>>
  ./logs/core-stdout.log 2>>./logs/core-stderr.log
  这个是使用Jetty启动Web程序,默认在8888端口提供SOLR的服务,这个服务上提供:
  Ø 基于SOLR规范本身的接口:如http://127.0.0.1:8888/solr/collection1/select/?q=NickChase, 这个接口在SOLR的文档有详细定义,在Lucid中Lucid query parser替换了原有的SOLR解析以体现更好的效果和应用
  Ø SOLR的WEB界面: http://localhost:8888/solr/
  Lucid封装增强的系列REST 服务API:如http://localhost:8888/api/collections/collection1/datasources , REST API最重要的作用是控制和监视数据源和索引
  停止程序就是关闭Jetty
SOLR WEB程序分析
  在安装目录的lwe-core下:
  lwe-core\doc:是Lucid的文档内容
  lwe-core\solr:是SOLR自带的JSP程序,可以在Web界面使用
  lwe-core\WEB-INF\: 网站需要的基础文件,其中lib\lucidworks-1.8-1127.jar 实现了扩展,包括RestAPI
  web.xml中通过com.lucid.servlet.LWEServletModule实现了REST[google-guice:Google公司的Bob lee开发的轻量级IoC容器]
  具体关联的SOLR索引设置和数据
  solr\cores\collection** 是对应的不同数据的索引和设置区
  conf: solrconfig.xml schema.xml fieldtypes.xml等是SOLR使用的配置文件,具体的语法和SOLR的一致
  data: 具体的数据源的索引区域
  
  lwe-core\WEB-INF\lib下其他主要的关联文件:
  元数据抽取
  aperture-core aperture-tools-demork
  http://aperture.sourceforge.net/ Aperture is a Java framework for extracting and querying full-text content and metadata from various information systems (e.g. file systems, web sites, mail boxes) and the file formats (e.g. documents, images) occurring in these systems.
  多种数据格式文字获取tika
  Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。
  PDF - 通过Pdfbox
  MS-* - 通过POI
  HTML - 使用nekohtml将不规范的html整理成为xhtml
  OpenOffice 格式 - Tika提供
  Archive - zip, tar, gzip, bzip等
  RTF - Tika提供
  Java class - Class解析由ASM完成
  Image - 只支持图像的元数据抽取
  XML
  涉及不同格式的处理包:
  pdfbox-1.1.0 fontbox-1.1.0
  poi-3.7-20100617171931
  poi-ooxml-3.7-20100617171931 poi-ooxml-schemas-3.7-20100617171931 poi-scratchpad-3.7-20100617171931
  htmlparser-1.6.bundle.jar
  metadata-extractor-2.4.0-beta1.bundle
  
  判断文本文件编码的有用工具
  juniversalchardet
  quartz-1.8.4
  Quartz 是个开放源码项目,提供了丰富的作业调度集。
查看数据索引情况Luke
  Luke\ luke.bat
  对于已经索引的数据,可以使用这个工具查看索引的情况,包括各种信息,也是开源工具
总结
  有了以上的信息,我们实现一个类似的方案如下:
  1、 直接使用LWE-CORE,这样在这个服务上实现定制界面就是一个定制化的系统;或者直接使用这个方案,这样界面和服务都有[当然需要遵守这个软件的范围约束]
  2、 参考上面的方法实现一个基于SOLR的新应用,毕竟很多的应用不用处理这么多的文件类型的索引

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-87337-1-1.html 上篇帖子: 转载:Solr的自动完成实现方式(第二部分:Suggester方式) 下篇帖子: [solr]
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表