设为首页 收藏本站
查看: 813|回复: 0

[经验分享] solr(四)索引文件之Extract Metadata

[复制链接]

尚未签到

发表于 2016-12-16 07:45:29 | 显示全部楼层 |阅读模式
  假设客户要上传一个标准的mp3,服务器要对其做以下几件事:
  1) 上传到server并将相关 作者名,作品名,url 等存入数据库。
  2) 建立索引,当然用solr。
  这个看上去没有什么问题,但主要是,我们可能不知道mp3的作者是谁,它的作品名也与文件名不同,数量多的话不可能一个个去看,那么用solr的Extract Metadata功能就可以搞定,步骤如下。
  1: 在${catalina_home}\solr_config\solr\collection1\conf\schema.xml中定义几个字段(如果存在则不用定义)。

<field name="title" type="text_general" indexed="true" stored="true" multiValued="true"/>
<field name="author" type="text_general" indexed="true" stored="true"/>
<field name="url" type="text_general" indexed="true" stored="true"/>
<field name="description" type="text_general" indexed="true" stored="true"/>
<dynamicField name="ignored_*" type="string" multiValued="true"/>
  启动程序,代码如下:

public static void indexFilesSolrCell(String fileName, String solrId)
throws IOException, SolrServerException {
String urlString = "http://localhost:8080/solr";
HttpSolrServer solr = new HttpSolrServer(urlString);
ContentStreamUpdateRequest up
= new ContentStreamUpdateRequest("/update/extract");
up.addFile(new File(fileName),"audio/mp3");
up.setParam("literal.id", solrId);
up.setParam("literal.url", "http://189.256.23.10:8080/UploadServer/upload/Woman.mp3");
//up.setParam("literal.image", "http://189.256.23.10:8080/UploadServer/upload/Woman.jpg");
up.setParam("literal.description", "这是mp3的简介");
up.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true);
solr.request(up);
QueryResponse rsp = solr.query(new SolrQuery("id:Woman.mp3"));
System.out.println(rsp);
}
  运行结果如下:

{
responseHeader={
status=0,
QTime=0,
params={
q=id: Woman.mp3,
wt=javabin,
version=2
}
},
response={
numFound=1,
start=0,
docs=[
SolrDocument{
ignored_meta=[
xmpDM: releaseDate,
2013-04-08,
dc: creator,
张靓颖,
xmpDM: album,
OneWoman,
Author,
张靓颖,
xmpDM: artist,
张靓颖,
creator,
张靓颖,
xmpDM: audioCompressor,
MP3,
meta: author,
张靓颖,
stream_content_type,
audio/mp3,
stream_size,
null,
Content-Type,
audio/mpeg,
dc: title,
OneWoman
],
url=http: //189.256.23.10: 8080/UploadServer/upload/Woman.mp3,
description=这是mp3的简介,
id=Woman.mp3,
ignored_image=[
http: //189.256.23.10: 8080/UploadServer/upload/Woman.jpg
],
ignored_xmpdm_releasedate=[
2013-04-08
],
ignored_xmpdm_audiochanneltype=[
Stereo
],
ignored_dc_creator=[
张靓颖
],
ignored_xmpdm_album=[
OneWoman
],
author=张靓颖,
author_s=张靓颖,
ignored_xmpdm_artist=[
张靓颖
],
ignored_channels=[
2
],
ignored_xmpdm_audiosamplerate=[
44100
],
ignored_version=[
MPEG3LayerIIIVersion1
],
ignored_creator=[
张靓颖
],
ignored_xmpdm_audiocompressor=[
MP3
],
title=[
OneWoman
],
title_copy=OneWoman,
ignored_samplerate=[
44100
],
ignored_meta_author=[
张靓颖
],
ignored_stream_content_type=[
audio/mp3
],
ignored_stream_size=[
null
],
content_type=[
audio/mpeg
],
ignored_dc_title=[
OneWoman
],
content=[
OneWomanOneWoman张靓颖OneWoman2013-04-08
],
content_copy=OneWomanOneWoman张靓颖OneWoman2013-04-08,
_version_=1431728246751232000
}
]
}
}
  可见只用了一个mp3的文件,就可以索引很多内容,那么,再将数据存入数据库就没什么问题了。你也可以直接在页面上query中查询,结果是一样的。
  注意,这里由于我们的solr的所有config文件都是从example里面copy出来的,所以有些路径要修改,我这里暂时改成了绝对路径,请查看solrConfig.xml的<lib >标签,确保路径正确。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-314856-1-1.html 上篇帖子: solr StatsComponent(聚合统计) 下篇帖子: solr indexing 和基本的数据操作
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表