设为首页 收藏本站
查看: 1540|回复: 0

[经验分享] mongodb mapreduce使用总结

[复制链接]
累计签到:1 天
连续签到:1 天
发表于 2014-7-28 11:18:59 | 显示全部楼层 |阅读模式
家都知道,mongodb是一个非关系型数据库,也就是说,mongodb数据库中的每张表是独立存在的,表与表之间没有任何依赖关系。在mongodb中,除了各种CRUD语句之外,还给我们提供了聚合和mapreduce统计的功能,这篇文章主要来跟大家聊聊mongodb的mapreduce的操作。

    ?mapreduce的概念我就不赘述了,大家自己去查查吧。

    ?在mongodb中,mapreduce的语法如下:

    ?


    db.table.mapReduce(  
            map,  
            reduce,  
            {  
                query: query,  
                out: out,    //指定结果集以什么方式存储,可选参数包括:  
                            //replace:如果文档(table)存在,则替换table,  
                            //merge:如果文档中存在记录,则覆盖已存在的文档记录  
                            //reduce: 如果文档中存在相同key的记录了,则先计算两条记录,然后覆盖旧记录  
                            // {inline:1}  在内存中存储记录,不写入磁盘(用户数据量少的计算)  
                sort: sort,  
                limit: limit,  
                finalize: function  //这个function主要用来在存入out之前可以修改数据,function(key,values) {   
                                    //return modifiedValues;}  
                scope: document,    //指定reduce可访问的文档范围  
                jsMode:boolean      //指定是否在map和ruduce之间立即将数据转换为Bason格式,默认为false  
                                    //如果想设置为true,则要记住官方我那当的注意事项:  
                                    //You can only use jsMode for result sets with fewer than  
                                    //500,000 distinct key arguments to the mapper’s emit()function.  
                verbose:boolean     //是否在结果集中包含timing信息,默认是包含的  
            }  
        )  

    ?在做mongodb的mapreduce时,要确保你的query是可以利用到索引的,不然在大数据量的统计下,将会托夸整个数据库,如果确实没办法建索引,那么就在结果集中判断一些不符合条件的数据,而去掉query。

    ?mapreduce的语法其实很简单,只不过这里面有几点需要注意一下:

    ?    ?1.在map中,mongodb是每1000条数据就reduce一次

    ?    ?2.在map中,如果你想统计一个数据之和,需要这样写:

    ?    ?    ?emit(key:this.key,sum:0})

    ?    ?    ?然后再在reduce里需要将上一次的sum迭代累加起来,然后return {sum:sum};如果不这样做,你计算出来的数据总是最后不足1000条数据之后统计出来的,而前面的数据就都丢失了。

    ?   3.如果能不用mapreduce,就不用,程序能够统计的,就不要用mongodb频繁统计。

    ?   4.mapreduce的结果集的数据格式是:{_id:key,value:{}},因此如果想直接使用这个表的话,最好再重新将数据格式整理一次,?尽量将数据放在最上次,而不是再用value.xxx去查询。

    ?这里附上统计我们网站的用户发表内容的数量的mapreduce,仅供一种代码格式的参考价值吧:

    ?


    var db = connect('127.0.0.1:27017/test');  
    db.aAccounttemp.drop();  
    var map = function() {  
        emit(this.accountId,   
            {sum:0,  
                reblogFlag:this.reblogFlag,dashboardFlag:this.dashboardFlag,dashboardType:this.dashboardType,  
                photoNum:0,postNum:0,reblogNum:0,videoNum:0,videoShortNum:0, musicNum:0,  
                questionNum:0,appNum:0, dialogNum:0});  
    }  
      
    var reduce = function(key,values) {  
      
        var sum = 0;  
        var photoNum = 0;  
        var postNum = 0;  
        var reblogNum = 0;  
        var videoNum = 0;  
        var videoShortNum = 0;  
        var musicNum = 0;  
        var questionNum = 0;  
        var appNum = 0;  
        var dialogNum = 0;  
        for (var i = 0; i < values.length; i++) {  
            var data = values;  
            var reblogFlag = data.reblogFlag;  
            var dashboardFlag = data.dashboardFlag;  
            var dashboardType = data.dashboardType;  
            sum += data.sum;  
            photoNum += data.photoNum;  
            reblogNum += data.reblogNum;  
            postNum += data.postNum;  
            videoNum += data.videoNum;  
            musicNum += data.musicNum;  
            videoShortNum += data.videoShortNum;  
            questionNum += data.questionNum;  
            appNum += data.appNum;  
            dialogNum += data.dialogNum;  
            if(!reblogFlag) {  
                if(dashboardFlag) {  
                    sum += 1;  
                    if(dashboardType == 10) {  
                        postNum += 1;  
                    } else if(dashboardType == 20) {  
                        photoNum += 1;  
                    } else if(dashboardType == 30) {  
                        videoNum += 1;  
                    } else if(dashboardType == 31) {  
                        videoShortNum += 1;  
                    } else if(dashboardType == 40) {  
                        musicNum += 1;  
                    } else if(dashboardType == 60) {  
                        questionNum += 1;  
                    } else if(dashboardType == 100) {  
                        appNum += 1;  
                    } else if(dashboardType == 91) {  
                        dialogNum += 1;  
                    }  
                } else {  
                    if(dashboardType == 20) {  
                        photoNum += 1;  
                    }  
                }  
            } else if(reblogFlag && dashboardFlag) {  
                reblogNum += 1;  
            }  
              
        }  
        return {sum:NumberInt(sum),reblogNum:NumberInt(reblogNum),postNum:NumberInt(postNum),photoNum:NumberInt(photoNum),  
            videoNum:NumberInt(videoNum),videoShortNum:NumberInt(videoShortNum),  
            musicNum:NumberInt(musicNum), questionNum:NumberInt(questionNum),appNum:NumberInt(appNum),dialogNum:NumberInt(dialogNum)};  
    };  
    db.getMongo().setSlaveOk();  
    db.dashboard_basic.mapReduce(  
            map,  
            reduce,  
            {  
                out:{merge:'aAccounttemp'}  
            }  
        );  
    var results = db.aAccounttemp.find();  
    //重新整理数据格式,存入正规表中  
    while (results.hasNext()) {  
        var obj = results.next();  
        var value = obj.value;  
        var sum = NumberInt(value.sum);  
        var reblogNum = NumberInt(value.reblogNum);  
        var postNum = NumberInt(value.postNum);  
        var photoNum = NumberInt(value.photoNum);  
        var videoNum = NumberInt(value.videoNum);  
        var videoShortNum = NumberInt(value.videoShortNum);  
        var musicNum  = NumberInt(value.musicNum);  
        var questionNum = NumberInt(value.questionNum);  
        var appNum = NumberInt(value.appNum);  
        var dialogNum = NumberInt(value.dialogNum);  
        var accountId = obj._id;  
        db.dashboard_account_num.insert({accountId:accountId,sum:sum,reblogNum:reblogNum,postNum:postNum,photoNum:photoNum,  
            videoShortNum:videoShortNum,videoNum:videoNum,musicNum:musicNum,questionNum:questionNum,  
            appNum:appNum,dialogNum:dialogNum});  
    }  
      
    print('success insert total ' + results.count()+ ' datas');  
    db.aAccounttemp.drop()  
    quit()   


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-22760-1-1.html 上篇帖子: MongoDB:数据模型介绍 下篇帖子: MongoDB: 聚集管道 管道
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表