设为首页 收藏本站
查看: 2784|回复: 0

[经验分享] 检测磁盘驱动的健康程度SMART

[复制链接]
累计签到:1 天
连续签到:1 天
发表于 2014-7-21 08:53:54 | 显示全部楼层 |阅读模式
在服务器中,所有组件中一般最容易坏掉的就是磁盘。所以一般采取RAID来保证系统的稳定性,通过冗余磁盘的方式防止磁盘故障。
现代硬件驱动器一般支持SMART(自我监测分析和报告技术),它能够监视整个硬盘驱动器的健康状况,并且当硬盘驱动器即将故障的时候会发出警告。
一般硬件厂商提供的磁盘工具,是在系统重启后检查磁盘驱动的健康状况,而SMART可以不用重启系统就可以检查硬盘驱动器的健康程度。
在linux中,工具包的名字为smartmontools
在centos中可以使用 yum install smartmontools来安装工具
首先通过smartctl -i /dev/sda 来检查一下硬盘是否具有 SMART 特性
下面是smart工具的说明文档,里面有详细的说明
http://smartmontools.sourceforge.net/smartmontools_scsi.html

这个是我在虚拟机中测试的不支持
Center.jpg
这个是我在真服务器中测试的,支持
Center.jpg
SMART support 是 Disabled 状态的话,需要开启 SMART 的支持:

smartctl -s on /dev/sda

然后使用smartctl -H /dev/sda来检测磁盘的健康状况
查看/dev/sda当前整体监控状态。PASSED表示健康,否则意味着磁盘已经故障,或很快就会发生故障。

Center.jpg

使用
smartctl -t short /dev/sda

做一个快速自检
Center.jpg

smartctl -l selftest /dev/sda

查看自检的进度和结果
Center.jpg

使用smartctl -t long /dev/sda 做长时间自检,这个很耗时,一般放在凌晨
使用smartctl -l error /dev/sda查看出错日志
Center.jpg

在这里,我的读、写都没有发生错误,在Non-medium error count 中出现错误6。
我一直没有搞懂(非媒介错误计数)这个是什么意思,在官方文档查了一下,出现如下:
non-medium error counter (only a single number displayed). This represents the number of recoverable events other than write, read or verify errors.

我大致理解了一下,是除了read,write,verify errors的错误,可恢复事件的数量
查看所有信息
打印/dev/sda所有的SMART信息。
smartctl  -a  /dev/sda
相当于依次执行:
smartctl  –i  /dev/sda   
smartctl  -c  /dev/sda   
smartctl  -A  /dev/sda   
smartctl  -l  error  /dev/sda
smartctl  -l  selftest  /dev/sda
smartctl  -l  selective  /dev/sda
开/关SMART功能
打开或关闭/dev/sda 的SMART功能。
smartctl  -s  on/off  /dev/sda
查看当前SMART功能是否开启,可以使用 –i 参数。
smartctl  -i  /dev/sda
离线测试
对/dev/sda进行离线测试,它的结果主要用来更新SMART 属性。
smartctl  -t  offline  /dev/sda
观察测试进度
通过-c 参数,可以观察到测试的进度:
smartctl -c    /dev/sda

smartctl参数帮助
-h                帮助信息
-V                版本信息
-i                打印基本信息(磁盘设备号、序列号、固件版本…)
-a      打印磁盘所有的SMART信息
运行时行为 参数:
-q  TYPE        指定输出的安静模式。
TYPE可以有3种选择:
                          eorsonly                只打印错误日志。
                          slent                        有任何打印。
                          nserial                不打印序列号
        -d  TYPE        指定磁盘的类型。如果没有指定,smartctl会根据磁盘的名字来
猜测磁盘类型。
-T  TYPE        指定当发生错误时,smartctl的容忍程度,是否继续运行。
                        TYPE可以有4种选择:
                          conservative        一有错就会退出
                          normal        如果必须支持的SMART命令失败,则退出
                          permissive     忽略一次必须支持的SMART命令失败
                          verypermissive  忽略所有必须支持的SMART命令失败
-b  TYPE        指定当发生校验错误时,smartctl的动作。
                        TYPE有3种选择:
                          warn                发出警告,继续执行
                          exit                 退出smartctl
                          ignore                不发出告警,继续执行        
-r  TYPE        smartmontools开发人员相关。
-n  POWERMODE        指定当磁盘处于节能模式时,smartctl是否继续检查,
默认是不检查。
POWERMODE有4种选择:
  never   检查
  sleep    除了sleep模式,检查。
  standby  除了sleep或standby模式,检查。
  idle      除了sleep或standby或idle模式,见车。
SMART功能开关 参数:
-s  on/off        打开或关闭磁盘的SMART功能
-o  on/off        打开或关闭SMART自动离线检测,该功能每4小时就会自动扫描磁盘是
否有缺陷。
-S  on/off   打开或关闭“自动保存厂商指定属性”功能。
SMART 读和显示数据 参数
-H                报告磁盘的是否健康。如果报告不健康,则说明磁盘已经损坏或会在24小时
内损坏。
-c                显示磁盘支持的普通SMART功能,以及这些功能当前的状态。
-A                显示磁盘支持的厂商指定SMART特性。这些特性的编号从1-253,并且有指
定的名字。
-l  TYPE        指定显示的log类型。
                        TYPE有4种选择:
                        error                只显示error  log。
                        selftest        只显示selftest  log
                        selective 只显示selective  self-test  log
                        directory 只显示Log  Directory
        -v  N,OPTION        显示厂商指定SMART特性N时,使用厂商相关的显示方式。
-F  TYPE        设置smartctl的行为,当出现一些已知但还没有解决的硬件或软件bug时,
smartctl应该怎么做。
-P  TYPE        设置smartctl是否对磁盘使用数据库中已有的参数。
SMART 离线测试、自测试 参数
-t  TEST        立刻执行测试,可以和-C参数一起使用。
                        TEST可以有以下几个选择:
                        offline  离线测试。可以在挂载文件系统的磁盘上使用
                        short   短时间测试。可以在挂载文件系统的磁盘上使用。
                        long   长时间测试。可以在挂载文件系统的磁盘上使用。
                        conveyance  [ATA only]传输zi测试。可以在挂载文件系统的磁盘上使用。
                        select, N-M        
select, N+SIZE  [ATA only]有选择性测试,测试磁盘的部分LBA。N表示
LBA编号,M表示结束LBA编号,SIZE表示测试的LBA
范围。
-C  在captive模式下运行测试。
注意:(1)-C必须配合-t一起使用,但如果是-t offline,则-C不生效。
         (2)-C会使得磁盘很忙,所以最好是在没有挂载文件系统的磁盘上使用。
-X  中断no-captive模式下运行的测试。



运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-22400-1-1.html 上篇帖子: CentOS 中使用yum出现的“UnicodeDecodeError: 'ascii' codec”问题解决方法 下篇帖子: centos6.4 网络适配器设置仅主机模式 检测 健康
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表