设为首页 收藏本站
查看: 1473|回复: 0

[经验分享] 在MongoDB的MapReduce上踩过的坑

[复制链接]

尚未签到

发表于 2015-7-6 09:50:39 | 显示全部楼层 |阅读模式
  太久没动这里,目前人生处于一个新的开始。这次博客的内容很久前就想更新上来,但是一直没找到合适的时间点(哈哈,其实就是懒),主要内容集中在使用Mongodb时的一些隐蔽的MapReduce问题:
  1、Reduce时的计数问题
  2、Reduce时的提取数据问题
  另外,补充一个小tips:mongoDB中建立的索引,优先使用固定的,而不要使用范围。
  
  一、MapReduce时的计数问题
  这个问题主要出现在使用“+1”的思路去计算累计次数时。如果在Map后的某一类中,记录量过大,就会导致计数失败。
  具体演示如下:
  原始数据(有400条一样的存在数据库results表中):{ "grade" : 1, "name" : "lekko", "score" : 95 }   
  进行MapReduce:



1 db.runCommand({ mapreduce: "results",
2  map : function Map() {
3     emit(
4         {grade:this.grade},
5         {recnum:1,score:this.score}
6     );
7 },
8  reduce : function Reduce(key, values) {
9     var reduced = {recnum:0,score:0};
10     values.forEach(function(val){
11             reduced.score += val.score;
12             ++reduced.recnum;
13         });
14     return reduced;
15 },
16 finalize : function Finalize(key, reduced) {
17         return reduced;
18 },
19 out : { inline : 1 }
20 });
  满怀希望地以为value.recnum会输出400,结果却是101!而value.scorce却是输出的正确的:38000(95*400)。本人在这疑惑了好久,并且通过更改reduce函数: function Reduce(key, values) { return {test:values}; } ,发现数据是这样的:
DSC0000.png
  在原本Reduce函数中的forEach只遍历了第一层的数据,即101个,所以++操作也只做了101次!
  经过思考,导致问题的原因关键就在于MapReduce中emit后的Bosn的数据格式,一个大于100的Array,会被拆分存储,变成了非线性的链表结构,如图:
DSC0001.png
  那么,分数相加却能正确,可以大胆地推测:“reduced.score += val.score;” 语句可以智能地找到所有子结点的score并相加!
  最后,这里给出计数的替代方案,修改Reduce的++,改用+=操作:



1 function Reduce(key, values) {    ;
2     var reduced = {recnum:0,score:0};
3     values.forEach(function(val){
4             reduced.score += val.score;
5             reduced.recnum += val.recnum;
6         });
7     return reduced;
8 }
  
二、在Reduce中把数据提取出来组成Array
  
  这个问题产生的原因与上面的相似,也是由于emit后的数据在reduce时是非线性的(有层次关系),所以提取数据字段时也会产生问题,为了测试,往上面所说的表中再插入3条数据:
  { "grade" : 1, "name" : "monkey", "score" : 95 }, { "grade" : 2, "name" : "sudan", "score" : 95 }, { "grade" : 2, "name" : "xiaoyan", "score" : 95 }
  编写提取出各个grade的所有人名(不重复)列表:



1 db.runCommand({ mapreduce: "results",
2  map : function Map() {
3     emit(
4         {grade:this.grade},
5         {name:this.name}
6     );
7 },
8  reduce : function Reduce(key, values) {
9     var reduced = {names:[]};
10     values.forEach(function(val) {
11         var isExist = false;
12         for(var i = 0; i

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-83719-1-1.html 上篇帖子: MongoDB学习 (五):查询操作符(Query Operators).1st 下篇帖子: MongoDB分片实战(一):集群搭建
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表