在MongoDB的MapReduce上踩过的坑
太久没动这里,目前人生处于一个新的开始。这次博客的内容很久前就想更新上来,但是一直没找到合适的时间点(哈哈,其实就是懒),主要内容集中在使用Mongodb时的一些隐蔽的MapReduce问题:1、Reduce时的计数问题
2、Reduce时的提取数据问题
另外,补充一个小tips:mongoDB中建立的索引,优先使用固定的,而不要使用范围。
一、MapReduce时的计数问题
这个问题主要出现在使用“+1”的思路去计算累计次数时。如果在Map后的某一类中,记录量过大,就会导致计数失败。
具体演示如下:
原始数据(有400条一样的存在数据库results表中):{ "grade" : 1, "name" : "lekko", "score" : 95 }
进行MapReduce:
1 db.runCommand({ mapreduce: "results",
2map : function Map() {
3 emit(
4 {grade:this.grade},
5 {recnum:1,score:this.score}
6 );
7 },
8reduce : function Reduce(key, values) {
9 var reduced = {recnum:0,score:0};
10 values.forEach(function(val){
11 reduced.score += val.score;
12 ++reduced.recnum;
13 });
14 return reduced;
15 },
16 finalize : function Finalize(key, reduced) {
17 return reduced;
18 },
19 out : { inline : 1 }
20 });
满怀希望地以为value.recnum会输出400,结果却是101!而value.scorce却是输出的正确的:38000(95*400)。本人在这疑惑了好久,并且通过更改reduce函数: function Reduce(key, values) { return {test:values}; } ,发现数据是这样的:
在原本Reduce函数中的forEach只遍历了第一层的数据,即101个,所以++操作也只做了101次!
经过思考,导致问题的原因关键就在于MapReduce中emit后的Bosn的数据格式,一个大于100的Array,会被拆分存储,变成了非线性的链表结构,如图:
那么,分数相加却能正确,可以大胆地推测:“reduced.score += val.score;” 语句可以智能地找到所有子结点的score并相加!
最后,这里给出计数的替代方案,修改Reduce的++,改用+=操作:
1 function Reduce(key, values) { ;
2 var reduced = {recnum:0,score:0};
3 values.forEach(function(val){
4 reduced.score += val.score;
5 reduced.recnum += val.recnum;
6 });
7 return reduced;
8 }
二、在Reduce中把数据提取出来组成Array
这个问题产生的原因与上面的相似,也是由于emit后的数据在reduce时是非线性的(有层次关系),所以提取数据字段时也会产生问题,为了测试,往上面所说的表中再插入3条数据:
{ "grade" : 1, "name" : "monkey", "score" : 95 }, { "grade" : 2, "name" : "sudan", "score" : 95 }, { "grade" : 2, "name" : "xiaoyan", "score" : 95 }
编写提取出各个grade的所有人名(不重复)列表:
1 db.runCommand({ mapreduce: "results",
2map : function Map() {
3 emit(
4 {grade:this.grade},
5 {name:this.name}
6 );
7 },
8reduce : function Reduce(key, values) {
9 var reduced = {names:[]};
10 values.forEach(function(val) {
11 var isExist = false;
12 for(var i = 0; i
页:
[1]