solr 使用 ContentStreamUpdateRequest 中文乱码解决办法

zhouyi 发表于 2016-12-16 07:05:58

　　问题描述：
　　有solr 生成富文本索引时，中文出现乱码。我当时的解决办法如下：
　　环境声明：
　　我的Tomcat 已经是utf-8
　　步骤一：
　　将所有字段转成UTF-8,如下

updateRequest = new ContentStreamUpdateRequest("/update/extract");
updateRequest.addFile(file);
updateRequest.setParam("literal.id", "".concat(doc.getId()).concat("-").concat(file.getName()));
updateRequest.setParam("literal.file_path",URLEncoder.encode(file.getAbsolutePath(), "UTF-8") );
updateRequest.setParam("literal.file_name", URLEncoder.encode(file.getName(), "UTF-8"));
updateRequest.setParam("literal.form_content", URLEncoder.encode(doc.getContent(), "UTF-8"));
updateRequest.setParam("literal.title", URLEncoder.encode(doc.getTitle(), "UTF-8"));
　　步骤二：将 apache-solr-core-3.6.0.jar 内 org.apache.solr.servlet.SolrRequestParsers.java 中的内部类MultipartRequestParser 的
　　parseParamsAndFillStreams方法内的以下代码

if (item.isFormField()) {
MultiMapSolrParams.addParam(
item.getFieldName(),
item.getString(), params.getMap() );
}
　　替换换为

if (item.isFormField()) {
MultiMapSolrParams.addParam( item.getFieldName(), URLDecoder.decode(item.getString(), "utf-8"), params.getMap() );
}
　　Ok 到此已经解决了乱码问题。。。

页: [1]

运维网's Archiver

solr 使用 ContentStreamUpdateRequest 中文乱码解决办法