SolrCloud6.1.0之SQL查询测试

11lxm 发表于 2018-10-21 11:22:54

　　Solr发展飞快，现在最新的版本已经6.1.0了，下面来回顾下Solr6.x之后的一些新的特点：
　　（1）并行SQL特性支持，编译成Streaming 表达式，可以在solrcloud集群中，并行执行
　　（2）SolrCloud的Collection被抽象成关系型数据库表，现在不仅仅可以支持强大的全文检索，还通过SQL支持像数据库一样的BI分析
　　（3）在SQL的where语句中，全面支持强大的Lucene/Solr语法
　　（4）一些聚合操作例如Group会自动优化成并行操作，通过使用Streaming表达式来以Map-Reduce的方式运行

　　（5）在（4）中运行的聚合操作，还可以以原生的JSON>　　（6）SQL特性目前仅支持SolrCloud集群方式，单机方式并不支持
　　有关SolrCloud的集群搭建，在这里散仙就不详细说了，有兴趣的朋友，可以参考我前面的文章
　　http://qindongliang.iteye.com/blog/2275990，搭建好的集群如下：

　　实际上像Solr或者ElasticSearch能支持SQL，这并不奇怪，因为他们底层基本上都提供了SQL能支持的大部分功能接口，比如，排序，过滤
　　分组，聚合等一些操作，能支持SQL，但不意味着能取代关系型数据库，恰恰相反，NoSQL是作为SQL的有力补充，怎么样组合搭配使用，能把业务
　　场景优化的更好，或者能解决某类问题，才是引入这些框架的初衷。
　　前面说到，Solr在api层面已经有各种功能的接口，缺的就是一个SQL语法解析器，以及如何与最新的Java8的对接？所以在Solr6.x里面，引入两个
　　最重要的东东就是：
　　（1）引入了Facebook开源的大数据SQL检索框架Presto的SQL Parser
　　（2）使用Java8的Streaming Api写的Streaming Expressions （流式表达式），支持类似shell的管道的计算方式，可以对数据流进行各种复杂操作例如各种join，
　　也可以进行图谱查询
　　使用Solrj通过JDBC查询Solr，目前只能查，暂不支持更新，修改，删除等操作
　　依赖jar包：
　　$SOLR_HOME/dist/solrj-libs所有的jar
　　$SOLR_HOME/dist/solr-solrj-.jar solr-solrj.jar
　　如果是maven项目：
　　Java代码

[*]　　
[*]　　
[*]　　org.apache.solr
[*]　　solr-solrj
[*]　　6.1.0
[*]　　
　　下面来看一段Solrj通过JDBC查询示例：
　　Java代码

[*]　　Connection con=null;
[*]　　Statement stmt=null;
[*]　　ResultSet rs=null;
[*]　　try{
[*]　　String collection="sql_search";
[*]　　String aggregationMode="facet";// facet or map_reduce
[*]　　//注意solr//:后面跟的是zk集群地址，如果有chroot path还需要加上
[*]　　con=DriverManager.getConnection("jdbc:solr://192.168.1.184:2181/solr6?collection="+collection+"&aggregationMode="+aggregationMode+"&numWorkers=2");
[*]　　//检索，排序，topN
[*]　　String sql1="select dtimefrom big_search order by dtime desc limit 4 ";
[*]　　//多级分组，排序1
[*]　　String sql2="select t1,t2,t3 , count(*)from big_search group by t1,t2 ,t3 order by count(*) desc limit 3";
[*]　　//分组，过滤，排序2
[*]　　String sql21="select t1, count(*)from big_search group by t1 having count(*) > 2 order by count(*) desc ";
[*]　　//去重
[*]　　String sql221="select distinct t3 from sql_search limit 2";
[*]　　//全文检索查询
[*]　　String sql15="select rowkey from big_searchwhere title='(你好苏州)' limit 4";
[*]　　//聚合函数支持max，min，avg，sum，count
[*]　　String sql4="select count(*) from big_searchlimit 2 ";
[*]　　//提取字段
[*]　　String sql3="select t1,t2 from big_search ";
[*]　　stmt = con.createStatement();//编译sql
[*]　　rs = stmt.executeQuery(sql21);//执行sql
[*]　　ResultSetMetaData metaData = rs.getMetaData(); //获取字段名元数据
[*]　　String line_space="\t"; //格式化打印
[*]　　for(int i=1;i　　只要求有shard，有数据，即可测试，利用solr原生的Facet api进行聚合

　　（3）理解DocValue对SQL查询的影响
　　大部分情况下在Solr中的SQL查询，是需要加上limit关键词的，如果你不加，要么你就会发现，你的查询可能会莫名其妙的报错
　　这个时候问题的原因大部分是跟DocValue有关的， Solr6要求，所有不加的limit查询的字段，必须全部是DocValue激活的
　　字段，如果任何一个不是，那么查询肯定报错，如果你加了limit关键词，要么可以不受这个限制影响。
　　至于为什么必须要激活DocValue字段才能进行all字段提取查询，主要目的还是为了性能，想了解DocValue可以
　　参考散仙之前的文章：http://qindongliang.iteye.com/blog/2297280
　　（4） Solr6支持客户端工具（像MySQL的NaviCat）查询链接：
　　A：DbVisualizer（C/S客户端GUI）
　　B：SQuirreL SQL （C/S客户端GUI）
　　C：Apache Zeppelin（B/S web端）
　　大部分都需要配置添加有关的solr的jdbc的jar包，具体安装方式参考文末链接
　　（5）除了JDBC方式支持SQL查询，http方式也是可以的：
　　Shell代码

[*]　　$ cat sql.sh
[*]　　## 聚合模式 map_reduce
[*]　　#curl --data-urlencode 'stmt=SELECT t1, count(*) FROM sql_search GROUP BY t1 ORDER BY count(*) desc LIMIT 10'http://192.168.1.120:8983/solr/sql_search/sql?aggregationMode=map_reduce
[*]　　## 聚合模式 facet
[*]　　curl --data-urlencode 'stmt=SELECT t1, count(*) FROM sql_search GROUP BY t1 ORDER BY count(*) desc LIMIT 10'http://192.168.1.120:8983/solr/sql_search/sql?aggregationMode=facet
[*]　　$ sh sql.sh
[*]　　{"result-set":{"docs":[
[*]　　{"count(*)":4,"t1":"01"},
[*]　　{"count(*)":2,"t1":"02"},
[*]　　{"count(*)":2,"t1":"03"},
[*]　　{"count(*)":2,"t1":"04"},
[*]　　{"count(*)":2,"t1":"05"},
[*]　　{"EOF":true,"RESPONSE_TIME":84}]}}
　　官网文档：
　　https://cwiki.apache.org/confluence/display/solr/Streaming+Expressions
　　https://cwiki.apache.org/confluence/display/solr/Parallel+SQL+Interface#ParallelSQLInterface-SQLClientsandDatabaseVisualizationTools
　　
　　有什么问题可以扫码关注微信公众号：我是攻城师(woshigcs)，在后台留言咨询。
　　技术债不能欠，健康债更不能欠，求道之路，与君同行。

页: [1]

运维网's Archiver

SolrCloud6.1.0之SQL查询测试