设为首页 收藏本站
查看: 1026|回复: 0

[经验分享] 构建高可靠hadoop集群之2-机栈

[复制链接]

尚未签到

发表于 2017-12-18 07:38:49 | 显示全部楼层 |阅读模式
  本文主要参考 http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/RackAwareness.html
  hadoop组件是机栈敏感(译注rack,机栈,可以简单理解为节点的摆放)。
  例如,HDFS块的分布会利用机栈敏感来做容错,方式是把复制放在不同的机栈。这样即便网络切换导致故障或者其它断开导致的故障,也会有一些数据是可用的。
  译注:在重要的系统中,还有完全有必要考虑这个的,网络设备也会出现故障,毕竟这些网路设备的负载也很繁重的。
  haoop主守护程序可以获得集群从属节点(数据节点)的机栈id,方式是激活一个完毕脚本或者是配置文件制定的java类。无论使用哪种方式,它们的输出都必须符合java的org.apache.hadoop.net.DNSToSwitchMapping接口。
  这个接口要求一一对应,拓扑信息(机器摆放信息)必须形如'/myrack/myhost',其中‘/'是拓扑分隔符,’myrack'是rack的识别符,'myhost'是主机名称。假定一个rack有24个子网,那么其中一个就可以使用'/192.168.100.0/192.168.100.5'.
  如果要使用java类做拓扑映射,那么类的名称必须是通过配置文件的net.topology.node.switch.mapping.impl来设定。例如,networkTopology.java,已经包含在hadoop发布程序中,管理员可以配置。
  使用java类的好处是,当一个新的数据节点加入的时候,hadoop不需要调用外部进程(这样可以更高效一些)。
  如果使用外部脚本,那么必须使用参数net.topology.script.file.name来配置。不同于java类,完毕拓扑脚本并没有包含在hadoop发布程序中,必须由管理员提供。当hadoop调用这些脚本的时候,会发送多个ip地址给ARGV.需要发送给脚本的ip地址个数,是
  由net.topology.script.number.args控制的,默认值是100.如果net.topology.script.number.args设置为1,那么数据节点或者几点管理器每提交一个ip地址,脚本就要被调用一次。

  如果net.topology.script.file.name 或者 net.topology.node.switch.mapping.impl的值没有设置,那么rack>  译注:以上几个参数都是在core-site.xml中配置的
  原文,给出了两个例子,一个是python,一个是bash
  ------------------------
  -- python
  ------------------------
  #!/usr/bin/python
  # this script makes assumptions about the physical environment.
  #  1) each rack is its own layer 3 network with a /24 subnet, which
  # could be typical where each rack has its own
  #     switch with uplinks to a central core router.
  #
  #             +-----------+
  #             |core router|
  #             +-----------+
  #            /             \
  #   +-----------+        +-----------+
  #   |rack switch|        |rack switch|
  #   +-----------+        +-----------+
  #   | data node |        | data node |
  #   +-----------+        +-----------+
  #   | data node |        | data node |
  #   +-----------+        +-----------+
  #
  # 2) topology script gets list of IP's as input, calculates network address, and prints '/network_address/ip'.
  import netaddr
  import sys
  sys.argv.pop(0)                                                  # discard name of topology script from argv list as we just want IP addresses
  netmask = '255.255.255.0'                                        # set netmask to what's being used in your environment.  The example uses a /24
  for ip in sys.argv:                                              # loop over list of datanode IP's
  address = '{0}/{1}'.format(ip, netmask)                      # format address string so it looks like 'ip/netmask' to make netaddr work
  try:
  network_address = netaddr.IPNetwork(address).network     # calculate and print network address
  print "/{0}".format(network_address)
  except:
  print "/rack-unknown"                                    # print catch-all value if unable to calculate network address
  ------------------------
  -- bash
  ------------------------
  #!/bin/bash
  # Here's a bash example to show just how simple these scripts can be
  # Assuming we have flat network with everything on a single switch, we can fake a rack topology.
  # This could occur in a lab environment where we have limited nodes,like 2-8 physical machines on a unmanaged switch.
  # This may also apply to multiple virtual machines running on the same physical hardware.
  # The number of machines isn't important, but that we are trying to fake a network topology when there isn't one.
  #
  #       +----------+    +--------+
  #       |jobtracker|    |datanode|
  #       +----------+    +--------+
  #              \        /
  #  +--------+  +--------+  +--------+
  #  |datanode|--| switch |--|datanode|
  #  +--------+  +--------+  +--------+
  #              /        \
  #       +--------+    +--------+
  #       |datanode|    |namenode|
  #       +--------+    +--------+
  #
  # With this network topology, we are treating each host as a rack.  This is being done by taking the last octet
  # in the datanode's IP and prepending it with the word '/rack-'.  The advantage for doing this is so HDFS
  # can create its 'off-rack' block copy.
  # 1) 'echo $@' will echo all ARGV values to xargs.
  # 2) 'xargs' will enforce that we print a single argv value per line
  # 3) 'awk' will split fields on dots and append the last field to the string '/rack-'. If awk
  #    fails to split on four dots, it will still print '/rack-' last field value
  echo $@ | xargs -n 1 | awk -F '.' '{print "/rack-"$NF}'
  总结:
  网络拓扑如何设计,无论在哪个集群中,都是需要密切关注的

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-425256-1-1.html 上篇帖子: Hadoop单机模式的安装方法(实验楼版) 下篇帖子: 【3】测试搭建成功的单机hadoop环境
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表