设为首页 收藏本站
查看: 1046|回复: 0

[经验分享] Hadoop运维记录系列(二十三)

[复制链接]

尚未签到

发表于 2018-10-28 11:52:30 | 显示全部楼层 |阅读模式
  最近做集群机房迁移,在旧机房和新机房之间接了根专线,做集群不停机搬迁,也就是跨机房,同时要新加百多台服务器,遇到几个问题,记录一下。
  旧集群的机器是centos 6, 新机房加的机器是centos 7。
  一、丢包问题
  在跨机房的时候,datanode显示很多Slow BlockReceiver的日志
WARN  org.apache.hadoop.hdfs.server.datanode.DataNode: Slow BlockReceiver write packet to mirror took 630ms(threshold=300ms)  经查,这个报错的主要原因出在网卡的MTU设置上,hadoop建议将网卡mtu值从1500设置为9000,以支持接收jumbo frame。调整mtu值后,偶尔还会有几条,但频率小多了。而且我记得这个得交换机一起配合修改,光改服务器不好使。
  二、centos7 执行df命令挂起,无法退出
  在cent7下面执行df命令会死在那里,用ctrl-c也没法退出。由于我们的nodemanager健康检查脚本里面包含df命令,所以,nm的健康检查会卡死,最后把所有CPU全吃光,导致计算任务无法正常进行。使用kill命令也无法杀掉僵死的df进程,使用strace跟踪df命令也无法退出,必须用kill -9 杀掉strace才可以。
stat("/sys/fs/cgroup/memory", {st_mode=S_IFDIR|0755, st_size=0, ...}) = 0  
stat("/sys/kernel/config", {st_mode=S_IFDIR|0755, st_size=0, ...}) = 0
  
stat("/", {st_mode=S_IFDIR|0555, st_size=4096, ...}) = 0
  
stat("/proc/sys/fs/binfmt_misc",
  最后df就是卡死在 binfmt_misc 这了。
  经查,这是centos7 systemd的一个bug,1534701,我们触发这个bug的原因应该是在执行hadoop安装的时候,作为依赖更新了systemd相关的组件,但是没有进行重启,新的systemd没生效,所以重启之后,故障解决。
  三、专线流量大,导致跑任务慢
  使用tcpdump及nmap综合分析,发现大量的ARP连接,应是B类地址没有做VLAN路由,跨机房集群相互之间做ARP通告引发广播风暴。后续由运维重新规划vlan解决。
  这些故障基本都不是hadoop本身的问题,就像上一篇记录里面,几百台机器其中一台的网卡变成了10Mbps,结果拖慢了整个集群的运行速度。这些问题都需要hadoop运维来发现,排查,通知其他部门,所以hadoop运维应该是在数据研发部门和运维部门之间的桥梁,能够快速定位hadoop,数据应用,操作系统,硬件之间哪里出现了问题,然后安排各相关人员解决,越快速定位,越能节省成本,时间成本和金钱成本都是成本,比如我司为了跨集群拉的专线据说一天一万,客户限定时间内跑不出数据报告丢的钱更多。
  等跨机房迁移弄完了,可以专门写一写。



运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-627470-1-1.html 上篇帖子: 3分钟让你读懂Hadoop都做了什么 下篇帖子: Hadoop用户启动hdf几个进程
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表