目录 背景情况:... 1 排查过程:... 2 大牛求助:... 3 同事的解读:... 4 时间的查看... 5 数据库的排查... 6 大牛的回答:... 8 1天后解决:... 11
背景情况:OpenStack版本是O版,已经使用了一段时间,期间使用脚本清理云硬盘,清楚完成后发现创建不了云硬盘,查看错误日志,没有发现问题,查看volume服务状态是down的。尝试重新启动,过60秒左右服务又是down的,如下图所示。
cinder volume的debug log如下图所示。
排查过程:1、查看cinder的配置 对比确认cinder的配置,没有发现问题 2、查看ceph的用户和uuid 确认ceph的用户和uuid,没有发现问题 3、ceph的状态不正常 通过设置ceph的状态是ok的了,但故障依旧。 4、权限查看
有些不同,根据现象描述应该也没有影响。 大牛求助:1、查看rados是否正常 rados lspools#查看ceph集群中有多少个pool (只是查看pool) rados df #查看ceph集群中有多少个pool,并且每个pool容量及利用情况 rados mkpool test#创建一个pool rados create test-object -p test#创建一个对象object rados rm test-object-1 -p test#删除一个对象object rados -p test ls
同事的解读:
时间的查看
数据库的排查
https://bugs.launchpad.net/cinder/+bug/1649956 不知道有没有关系。
大牛的回答:
最后报了个bug https://bugs.launchpad.net/cinder/+bug/1759541
1天后解决:经过对比发现是后台脚本删除了磁盘与实际的ceph数据不匹配,导致一值在查询数据库。把不匹配记录删除,恢复正常。
作者介绍: 张伟,从事过多年的软件开发工作,精通Linux系统管理,曾经做过RHCE培训讲师、熟悉公有云、私有云(OpenStack)的体系架构、熟悉OpenStack安装部署、系统运维、系统开发,拥有多年的私有云安装部署运维经验,主编了《深度实践OpenStack》系列教材(18年3月出版)。目前是OpenStack私有云的资深培训讲师、COA认证讲师、架构师、解决方案总监,曾经为腾讯、中国移动通信有限公司、中国移动(南方基地)、中国移动苏州科技有限公司、中国电信(政企事业部)、四川电信、国家电网(银川)、锐捷、北京市计算中心、中铁信息工程集团、惠普、临沂大学等开展过相关培训。目前在从事云计算人才的就业培训工作,欢迎有需求的企业及个人沟通洽谈,个人QQ:123640869,微信同号。
|