285572001 发表于 2015-7-6 09:50:39

在MongoDB的MapReduce上踩过的坑

  太久没动这里,目前人生处于一个新的开始。这次博客的内容很久前就想更新上来,但是一直没找到合适的时间点(哈哈,其实就是懒),主要内容集中在使用Mongodb时的一些隐蔽的MapReduce问题:
  1、Reduce时的计数问题
  2、Reduce时的提取数据问题
  另外,补充一个小tips:mongoDB中建立的索引,优先使用固定的,而不要使用范围。
  
  一、MapReduce时的计数问题
  这个问题主要出现在使用“+1”的思路去计算累计次数时。如果在Map后的某一类中,记录量过大,就会导致计数失败。
  具体演示如下:
  原始数据(有400条一样的存在数据库results表中):{ "grade" : 1, "name" : "lekko", "score" : 95 }   
  进行MapReduce:



1 db.runCommand({ mapreduce: "results",
2map : function Map() {
3   emit(
4         {grade:this.grade},
5         {recnum:1,score:this.score}
6   );
7 },
8reduce : function Reduce(key, values) {
9   var reduced = {recnum:0,score:0};
10   values.forEach(function(val){
11             reduced.score += val.score;
12             ++reduced.recnum;
13         });
14   return reduced;
15 },
16 finalize : function Finalize(key, reduced) {
17         return reduced;
18 },
19 out : { inline : 1 }
20 });
  满怀希望地以为value.recnum会输出400,结果却是101!而value.scorce却是输出的正确的:38000(95*400)。本人在这疑惑了好久,并且通过更改reduce函数: function Reduce(key, values) { return {test:values}; } ,发现数据是这样的:

  在原本Reduce函数中的forEach只遍历了第一层的数据,即101个,所以++操作也只做了101次!
  经过思考,导致问题的原因关键就在于MapReduce中emit后的Bosn的数据格式,一个大于100的Array,会被拆分存储,变成了非线性的链表结构,如图:

  那么,分数相加却能正确,可以大胆地推测:“reduced.score += val.score;” 语句可以智能地找到所有子结点的score并相加!
  最后,这里给出计数的替代方案,修改Reduce的++,改用+=操作:



1 function Reduce(key, values) {    ;
2   var reduced = {recnum:0,score:0};
3   values.forEach(function(val){
4             reduced.score += val.score;
5             reduced.recnum += val.recnum;
6         });
7   return reduced;
8 }
  
二、在Reduce中把数据提取出来组成Array
  
  这个问题产生的原因与上面的相似,也是由于emit后的数据在reduce时是非线性的(有层次关系),所以提取数据字段时也会产生问题,为了测试,往上面所说的表中再插入3条数据:
  { "grade" : 1, "name" : "monkey", "score" : 95 }, { "grade" : 2, "name" : "sudan", "score" : 95 }, { "grade" : 2, "name" : "xiaoyan", "score" : 95 }
  编写提取出各个grade的所有人名(不重复)列表:



1 db.runCommand({ mapreduce: "results",
2map : function Map() {
3   emit(
4         {grade:this.grade},
5         {name:this.name}
6   );
7 },
8reduce : function Reduce(key, values) {
9   var reduced = {names:[]};
10   values.forEach(function(val) {
11         var isExist = false;
12         for(var i = 0; i
页: [1]
查看完整版本: 在MongoDB的MapReduce上踩过的坑