haixin3036 发表于 2018-10-30 08:08:20

Hadoop集群datanode死掉或者secondarynamenode进程消失处理办法

  当Hadoop集群的某单个节点出现问题时,一般不必重启整个系统,只须重启这个节点,它会自动连入整个集群。
  在坏死的节点上输入如下命令即可:
  hadoop-daemon.sh start datanode
  hadoop-daemon.sh start secondarynamenode
  案例如下:
  hadoop节点死机,能ping通,ssh连接不上
  案例:
  时间:2014/9/11 上午
  表现:hadoop的web界面上TC-hadoop018节点dead
  症状:节点TC-hadoop018的ssh连接不上
  解决办法:
  通知机房管理员重启机器,
  关闭防火墙 查看状态:/etc/init.d/iptatbles status 关闭:/etc/init.d/iptables stop
  hadoop-daemon.sh stop datanode
  hadoop-daemon.sh stop tasktracker
  hadoop-daemon.sh start datanode
  hadoop-daemon.sh start tasktracker
  至此,启动成功
  【慎用】必要的时候,查看web界面,如果没有正在运行的job,直接重启整个集群。
  Hadoop的secondarynamenode端口50090不通
  案例:
  时间:2014/9/11 下午
  表现:sos2报警提示123.125.244.6_50090端口报警
  症状:jps命令123.125.244.6机器上SecondaryNameNode进程没有
  解决办法:
  hadoop-daemon.sh stop secondarynamenode
  hadoop-daemon.sh start secondarynamenode
  至此,启动成功

页: [1]
查看完整版本: Hadoop集群datanode死掉或者secondarynamenode进程消失处理办法