到这里故障是排除了,但是原因还不清楚,继续发掘原因。
由于只是慢,而不是完全跑不出来,大不了慢的map reduce attempt最后被kill掉了拿到其他服务器重新跑,但是不会报任何错误日志,系统log也没有错误日志。连WARN基本的都没有。但细心如我,还是发现了问题。
syslog里面的记录
Jun 19 14:05:45 6 kernel: bonding: bond0: link status definitely down for interface em1, disabling it
Jun 19 14:06:22 6 kernel: tg3 0000:01:00.0: em1: Link is up at 10 Mbps, full duplex
Jun 19 14:06:22 6 kernel: tg3 0000:01:00.0: em1: Flow control is off for TX and off for RX
Jun 19 14:06:22 6 kernel: tg3 0000:01:00.0: em1: EEE is disabled
Jun 19 14:06:22 6 kernel: bond0: link status definitely up for interface em1, 10 Mbps full duplex.
嗯,就是这个。