设为首页 收藏本站
查看: 1847|回复: 0

[经验分享] MongoDB分布式存储的MapReduce并行查询

[复制链接]

尚未签到

发表于 2018-10-28 08:22:21 | 显示全部楼层 |阅读模式
  今天要介绍的是如何使用MONGODB中提供的MapReduce功能进行查询。
  今天介绍如何基于sharding机制进行mapreduce查询。在MongoDB的官方文档中,这么一句话:
  Sharded Environments
  In sharded environments, data processing of map/reduce operations runs in parallel on all shards.
  即: map/reduce操作会并行运行在所有的shards上。
  下面我们就用之前这篇文章中白搭建的环境来构造mapreduce查询:
  首先要说的是,基于sharding的mapreduce与非sharding的数据在返回结构上有一些区别,我目前注意到的主要是不支持定制式的json格式的返回数据,也就是下面方式可能会出现问题:
  return { count : total };
  注意:上面的情况目前出现在了我的测试环境下,如下图:
  就需要改成 return count;
  下面是测试代码,首先是按帖子id来查询相应数量(基于分组查询实例方式):

  Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->public partial>  {
  public Mongo Mongo { get; set; }
  public IMongoDatabase DB
  {
  get
  {
  return this.Mongo["dnt_mongodb"];
  }
  }
  ///
  /// Sets up the test environment.  You can either override this OnInit to add custom initialization.
  ///
  public virtual void Init()
  {
  string ConnectionString = "Server=10.0.4.85:27017;ConnectTimeout=30000;ConnectionLifetime=300000;MinimumPoolSize=512;MaximumPoolSize=51200;Pooled=true";
  if (String.IsNullOrEmpty(ConnectionString))
  throw new ArgumentNullException("Connection string not found.");
  this.Mongo = new Mongo(ConnectionString);
  this.Mongo.Connect();
  }
  string mapfunction = "function(){\n" +
  "  if(this._id=='548111') { emit(this._id, 1); } \n" +
  "};";
  string reducefunction = "function(key, current ){" +
  "   var count = 0;" +
  "   for(var i in current) {" +
  "       count+=current;" +
  "   }" +
  "   return count ;\n" +
  "};";
  protected void Page_Load(object sender, EventArgs e)
  {
  Init();
  var mrb = DB["posts1"].MapReduce();//attach_gfstream.files
  int groupCount = 0;
  using (var mr = mrb.Map(mapfunction).Reduce(reducefunction))
  {
  foreach (Document doc in mr.Documents)
  {
  groupCount = int.Parse(doc["value"].ToString());
  }
  }
  this.Mongo.Disconnect();
  }
  }
  下面是运行时的查询结果,如下:
DSC0000.gif

  接着演示一下如何把查询到的帖子信息返回并装入list集合,这里只查询ID为548110和548111两个帖子:
  Code highlighting produced by Actipro CodeHighlighter (freeware)http://www.CodeHighlighter.com/-->        string mapfunction = "function(){\n" +
  "  if(this._id=='548110'|| this._id=='548111') { emit(this, 1); } \n" +
  "};";
  string reducefunction = "function(doc, current ){" +
  "   return doc;\n" +
  "};";
  protected void Page_Load(object sender, EventArgs e)
  {
  Init();
  var mrb = DB["posts1"].MapReduce();//attach_gfstream.files
  List postDoc = new List();
  using (var mr = mrb.Map(mapfunction).Reduce(reducefunction))
  {
  foreach (Document doc in mr.Documents)
  {
  postDoc.Add((Document)doc["value"]);
  }
  }
  this.Mongo.Disconnect();
  }
  下面是运行时的查询结果,如下:
  上面的map/reduce方法还有许多写法,如果大家感兴趣可以看一下如下这些链接:
  http://cookbook.mongodb.org/patterns/unique_items_map_reduce/
  http://www.mongodb.org/display/DOCS/MapReduce
  以及之前我写的这篇文章:http://www.cnblogs.com/daizhj/archive/2010/06/10/1755761.html
  当然在mongos进行map/reduce运算时,会生成一些临时文件,如下图:
DSC0001.gif

  我猜这些临时文件可能会对再次查询系统时的性能有一些提升(但目前未观察到)。
  当然对于mongodb的gridfs系统(可使用它搭建分布式文件存储系统,我之前在这篇文章中已介绍过,我也做了测试,但遗憾的是并未成功,它经常会报一些错误,比如:
  Thu Sep 09 12:09:29 Assertion failure _grab client\parallel.cpp 461
  看来mapreduce程序链接到mongodb上时,会产生一些问题,但不知道是不是其自身稳定性的原因,还是我的机器环境设置问题(内存或配置的64位系统mongos与32位的client连接问题)。


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-627322-1-1.html 上篇帖子: 用PHP实现MONGODB的基本操作 下篇帖子: mongodb随笔
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表