设为首页 收藏本站
查看: 1195|回复: 0

[经验分享] mongo简介——聚合group

[复制链接]

尚未签到

发表于 2016-12-2 08:10:38 | 显示全部楼层 |阅读模式
  这一篇将简单介绍下数据的聚合。
  不得不说mongo是一个强大的数据库,它为数据分析提供了很多有用的工具。
  很多公司也在使用mongo做数据分析,而且取得了不错的性能。
  首先说下RDBMS里面常用的聚合函数在mongo的世界里面是怎么回事。
  在RDBMS的世界里常用的聚合函数有max min avg sum count,不过现在我们到了mongo的世界了,这些可爱的东西也就离我们远去了。虽然mongo还支持count,但是这个函数只能返回一个数,如果你要根据不同的文档属性分组并返回每个分组的文档数,遗憾的是mongo的count做不到这一点。难道还有比这更糟的事吗?连这些基本的聚合功能都没有,怎么能说它的聚合能力强大呢?
  那是因为mongo提供了更灵活、通用的聚合能力。我们完全可以借助这些功能轻易的实现max min avg sum count。
  下面就开始介绍我们在mongo世界的新朋友。
  group----分组
  db.COLLECTION_NAME.group({key:{},
  initial:{},
  reduce:function(doc,aggregator){},
  cond:{},
  finalize:function(doc){}});
  db.COLLECTION_NAME.group({keyf:function(){},
  initial:{},
  reduce:function(doc,aggregator){},
  cond:{},
  finalize:function(doc){}});
  大家一定发现了这两个调用方式的不同之处就在于参数的第一个属性分别是key和keyf。
  第一个属性key/keyf,是用于分组的属性,eg. key:{name:true,registDate:true},就是针对集合中文档的name属性和注册时间分组。至于keyf,当然就是接收当前正在遍历的文档为参数返回一个新的文档,以这个新文档里的属性作为分组属性,eg. keyf:function(doc){return {year:doc.registDate.getFullYear()};}就是以注册年份分组。
  第二个参数是分组聚合结果的初始值。熟悉map-reduce的朋友一定很容易理解。在整个聚合分组的过程中,它只使用一次。至于它究竟是个什么东东,下面会举个例子说明。
  第三个参数接收一个函数,第一个参数doc就是正在遍历的文档,第二个参数就是遍历到这个文档之前的聚合结果,这个函数将根据这两个参数形成新的聚合结果。如果doc是遍历的第一个文档,initial将被作为实参传给aggregator。
  第三个参数可省略,它是用于过程聚合文档的查询选择器。选择器的语法就不多说了,请参考:mongo简介——查询   mongo简介——查询(续)。
  第四个参数是一个函数,这个函数接收聚合完成的结果作为参数做最终计算。
  整个group聚合过程完成之后,会返回一个文档列表,这个文档列表就是分组计算的结果。
  大家一定看出来了,整个group的聚合过程实际上就是遍历数据集进行计算的过程。跟自己先把满足条件的文档查询出来再挨个遍历计算的过程一样,只不过是它把遍历的工作也替我们做了而已。从这里也可以看出,对于数据集比较的情况,聚合运算会消耗巨量的计算资源和时间。
  假如我们要计算一下每年每个用户的发帖数、浏览数、顶数、踩数,以及顶或踩与浏览数的比值和顶/(顶+踩)的比值。
  db.blogs.group({
  keyf:function(doc){return {name:doc.name,year:doc.date.getFullYear()}},
  initial:{topics:0,browses:0,ups:0,downs:0},
  reduce:function(doc,aggregator){
  if(!aggregator.name){aggregator.name=doc.name;aggregator.year=doc.year;}
  agregator.topics++;
  agregator.browses+=doc.browses;
  agregator.ups+=doc.ups;
  agregator.downs+=doc.downs;
  },
  finalize:function(doc){
  var browses=doc.browses,ups=doc.ups,downs=doc.downs;
  doc.upPerBrowse=ups/browses;
  doc.downPerBrowses=down/browses;
  doc.upRatio=ups/(ups+downs);
  };
  });
  上面的代码的执行结果就是我们想要计算的结果。
  如果不按年份分组,只想知道每个用户的相关数据只需要把keyf属性替换成下面的代码即可:
  key:{name:true}
  如果只想知道runfriends的博文统计结果呢?只需要使用分组cond属性,可以在这个属性里应用任意查询选择器。
  db.blogs.group({
  key:{name:true},
  initial:{topics:0,browses:0,ups:0,downs:0},
  reduce:function(doc,aggregator){
  if(!aggregator.name){aggregator.name=doc.name;aggregator.year=doc.year;}
  agregator.topics++;
  agregator.browses+=doc.browses;
  agregator.ups+=doc.ups;
  agregator.downs+=doc.downs;
  },
  cond:{name:'runfriends'},
  finalize:function(doc){
  var browses=doc.browses,ups=doc.ups,downs=doc.downs;
  doc.upPerBrowse=ups/browses;
  doc.downPerBrowses=down/browses;
  doc.upRatio=ups/(ups+downs);
  };
  });
  关于上面avg sum max min等聚合功能,mongo没有提供的说法,现在已经不正确了。今天(2013-02-26)我看了下mongo官方手册,所有这些sql支持的聚合功能在mongo也都原生支持了。
  mongo的发展变化还是快啊。
  下面附上mongo官方手册:http://docs.mongodb.org/manual/contents/
  这个地址列出了mongo支持的所有查询与聚合命令:http://docs.mongodb.org/manual/reference/operator/
  这个地址列出了shell支持的所有函数:http://docs.mongodb.org/manual/reference/method/

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-308378-1-1.html 上篇帖子: 基于Java的Mongo入门 下篇帖子: node-mongo-native1.3.19连接mongo的最优方法
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表