设为首页 收藏本站
查看: 886|回复: 0

[经验分享] MogileFS 介绍

[复制链接]

尚未签到

发表于 2019-2-1 07:18:32 | 显示全部楼层 |阅读模式
  MogileFS 是一个开源的分布式文件系统,用于组建分布式文件集群,由 LiveJournal 旗下 Danga Interactive 公司开发,Danga 团队开发了包括 Memcached、MogileFS、Perlbal 等不错的开源项目:(注:Perlbal 是一个强大的 Perl 写的反向代理服务器).
  MogileFS 是基于 Google File System 第一个实作出来的, 论文发布没多久就出了这个.
  官方的介绍网站:
  http://www.danga.com/mogilefs/
  Google Code 上的信息
  http://code.google.com/p/mogilefs/
  这个地址有很多值得读读的信息,还有那些用户在使用 MogileFS ,以级使用多大的量,详细内容见http://code.google.com/p/mogilefs/wiki/Users.
普通文件存储的方法

  •   rsync
  •   NAS/SAN
  •   FTPd
  •   WebDAV
  •   NFS
MogileFS 特性就介绍,官方介绍

  •   应用层 — 不需要特殊的核心组件
  •   无单点失败 — MogileFS分布式文件存储系统安装的三个组件(存储节点、跟踪器、跟踪用的数据库),均可运行在多个 机器上,因此没有单点失败.(你也可以将跟踪器和存储节点运行在同一台机器上,这样你就没有必要用4台机器)推荐至少两台机器.
  •   自动的文件复制 — 基于不同的文件“分类”,文件可以被自动的复制到多个有足够存储空间的存储节点上,这样可以满足这个“类别”的最少复制要求.比如你有一个图片网站,你可以设置原始的JPEG图片需要复制 至少三份,但实际只有1or2份拷贝,如果丢失了数据,那么MogileFS分布式文件存储系统可以重新建立遗失的拷贝数.用这种办法,MogileFS(不做RAID)可以节约磁盘,否则你将存储同样的拷贝多份,完全没有必要.
  •   “比RAID好多了”— 在一个非存储区域网络的RAID(non-SAN RAID)的建立中,磁盘是冗余的,但主机不是,如果你整个机器坏了,那么文件也将不能访问. MogileFS分布式文件存储系统在不同的机器之间进行文件复制,因此文件始终是可用的.
  •   传输中立,无特殊协议 — MogileFS分布式文件存储系统客户端可以通过NFS或HTTP来和MogileFS的存储节点来通信,但首先需要告知跟踪器一下.
  •   简单的命名空间 –文件通过一个给定的key来确定,是一个全局的命名空间.你可以自己生成多个命名空间,只要你愿意,不过这样可能在同一MogileFS中会造成key冲突.
  •   不用共享任何东西 — MogileFS分布式文件存储系统不需要依靠昂贵的SAN来共享磁盘,每个机器只用维护好自己的磁盘.
  •   不需要RAID — 在MogileFS中的磁盘可以是做了RAID的也可以是没有,如果是为了安全性着想的话RAID没有必要买了,因为MogileFS分布式文件存储系统已经提供了.
MogileFS 的结构图
  在使用前,我们需要对 MogileFS 有个基本的了解,就是他的三个大的部分,Tracker(Database) , Storage Nodes 和 Client 组成.有二个服务进程 MogileFSd 和 mogstored .
  工作原理如图:
  客户端.连接到一个域,然后在域中拿着文件的 key 来查文件的位置,然后通过查到集群中的位置来打开这个文件.

  下面的部分的详细介绍
  MogileFS应用中的几个重要概念
  domain:最高域,在一个域下key是唯一的。
  class:包含在domain中,可以针对每一个class定义保存的份数。
  key:对文件的唯一标识。
  file:文件。
  MogileFS的适用性
  由于Mogilefs不支持对一个文件的随机读写,因此注定了只适合做一部分应用。比如图片服务,静态HTML服务。即文件写入后基本上不需要修改的应用,当然你也可以生成一个新的文件覆盖上去。
  MogileFS的工作方式(译)
  MogileFS由如下一些部分构成:

  •   Application : 想要 保存/加载 文件的应用
  •   Tracker (the mogilefsd process): 基于事件的(event-based) 父 进程/消息 总线来管理所有来之于客户端应用的交互(requesting operations to be performed), 包括将请求负载平衡到 “query workers” 中,让mogilefsd的子进程去处理. 你可以在不同的机器上运行两个Tracker, 为了高可用性, 或使用更多的Tracker为了负载平衡(你需要运行多于两个的Tracker). mogilefsd的子进程有:

    •   Replication — 个机器间复制文件
    •   Deletion — 从命名空间删除是立即的,从文件系统删除是异步的
    •   Query — 响应客户端的请求
    •   Reaper — 在磁盘失败后将文件复制请求重新放到队列中
    •   Monitor — 监测主机和设配的健康度和状态
    •   …

  •   Database — 数据库用来存放MogileFS的元数据 (命名空间, 和文件在哪里). 这应该设置一个高可用性(HA)的环境以防止单点失败.
  •   Storage Nodes — 实际文件存放的地方. 存储节点是一个HTTP服务器,用来做 删除,存放等事情,任何WebDAV服务器都可以, 不过推荐使用 mogstored 。 mogilefsd 可以配置到两个机器上使用不同端口… mogstored 为所有 DAV 操作 (和流量监测), 并且你自己选择的快速的HTTP服务器用来做 GET 操作(给客户端提供文件). 典型的用户没一个加载点有一个大容量的 SATA 磁盘,他们被加载到 /var/mogdata/devNN

MogileFS 的三个大的部分
  前面提到 Tracker(Database) , Storage Nodes 和 Client 组成,我们这先不讲 Client.因为Client实际上是一个 Perl 的模块,可以写程序调用该模块来操作 MogileFS 系统,对整个系统进行读写操作.另外,象 nginx 之类有相关的客户端模块.另外也有做成象文件系统一样采用 fuse 方式挂载看起来象一个本地文件系统.其它语言的客户端也非常多.

  •   Tracker(跟踪器 ,调度器)- (MogileFSd 进程-建议二个 tracker 实例)
  这个是 MogileFS 的核心部分,通俗点讲,就他是一个调度器.MogileFSd 进程就是 trackers 进程程序,类似 MogileFS 的 wiki 上介绍的,trackers 做了很多工作,Replication ,Deletion,Query,Reaper,Monitor 等等.这个是基于事件的( event-based ) 父进程/消息总线来管理所有来之于客户端应用的交互(requesting operations to be performed), 包括将请求负载平衡到多个"query workers"中,然后让 MogileFSd 的子进程去处理.
  mogadm,mogtool 的所有操作都要跟 trackers 打交道,Client 的一些操作也需要定义好 trackers,因此最好同时运行多个 trackers 来做负载均衡.trackers 也可以只运行在一台机器 上,也可以跟其他程序运行在一起(不建议).
  tracker 配置文件: /etc/mogilefs/mogilefsd.conf

  •   数据库(MySQL)部分
  如上图所显示的,数据库用来存放 MogileFS 的元数据 (命名空间, 和文件在哪里). 是 Trackers 来操作和管理它.你可以用 mogdbsetup 程序来初始化数据库.因为数据库保存了MogileFS的所有元数据,如果这儿挂了,那么整个 MogileFS 将处于不可用状态.因此最好是HA结构.

  •   存储节点(Storage Nodes )-(mogstored 进程, Apache 和 Nginx 等 – 所有的存储数据的节点)
  实际文件存放的地方. 存储节点是一个 HTTP 服务器,用来做删除,存放,重命名等事情.任何 WebDAV 服务器都可以, 不过推荐使用 mogstored . MogileFSd 可以配置到两个机器上使用不同端口… mogstored 来进行所有的 DAV 操作和流量,IO监测, 并且你自己选择的 HTTP 服务器(默认为 perlbal)用来做 GET 操作给客户端提供文件.
  典型的应用是一个挂载点有一个大容量的 SATA 磁盘,它们被挂载到 /var/mogdata/devNN. 只要配置完配置文件后 mogstored 程序的启动将会使本机成为一个存储节点.当然还需要 mogadm 这个工具增加这台机器到 Cluster 中.
  mogstored 的配置文件: /etc/mogilefs/mogstored.conf
MogileFS 的二个服务进程
  这二个程序分别对应上面的部分
  mogilefsd — MogileFS 的主守护进程:
  就是上面指的 trackers(跟踪器 ),由 /etc/MogileFS/MogileFSd.conf 这个配置文件控制, 查询和主控制机器需要这个.
  mogstored — MogileFS 存储守护进程
  这个就是上面指的存储节点(Storage Nodes ),由 /etc/MogileFS/mogstored.conf 这个配置文件控制. 每个存储数据的节点都是需要启动.
MogileFS的其它
  有几个小工具,主要就是 mogadm,mogtool 这两个工具了,用来在命令行下控制整个 MogileFS 系统以及查看状态等等.我后面会针对这个进行详细的讲解.
  MogileFS 复制策略
  在 MogileFS 中,默认的 MogileFS::ReplicationPolicy::MultipleHosts 会试着 put 文件到不同主机的硬盘中.如果只有一个主机和2个硬盘,很明现这个是不行的,但它还是会勉强的 put 到相同的主机.
  如果你有三个硬盘,设置的最小的复制份数为 2,它会 put 2 个复本到不同的主机.如果你有 2 个主机 4 个硬盘设置的最小复制份数为 3,你会得到 3 个复本在不同的硬盘设备上,但是会有二份在同一个主机上.这认为是没问题的.
  High-level 流程:

  •   应用程序请求打开一个文件 (通过RPC 通知到 tracker, 找到一个可用的机器). 做一个 “create_open” 请求.
  •   tracker 做一些负载均衡(load balancing)处理,决定应该去哪儿,然后给应用程序一些可能用的位置。
  •   应用程序写到其中的一个位置去 (如果写失败,他会重新尝试并写到另外一个位置去).
  •   应用程序 (client) 通过”create_close” 告诉tracker文件写到哪里去了.
  •   tracker 将该名称和域命的名空间关联 (通过数据库来做的)
  •   tracker, 在后台, 开始复制文件,知道他满足该文件类别设定的复制规则
  •   然后,应用程序通过 “get_paths” 请求 domain+key (key == “filename”) 文件, tracker基于每一位置的I/O繁忙情况回复(在内部经过 database/memcache/etc 等的一些抉择处理), 该文件可用的完整 URLs地址列表.
  •   应用程序然后按顺序尝试这些URL地址. (tracker’持续监测主机和设备的状态,因此不会返回死连接,默认情况下他对返回列表中的第一个元素做双重检查,除非你不要他这么做..)
  http://www.php-oa.com/2010/09/26/perl-mogilefs-1.html


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-670199-1-1.html 上篇帖子: 分布式文件系统MogileFS简介 下篇帖子: MogileFS 安装与配置
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表