前言
数据库管理和维护工作中一项重要的内容就是对数据库进行定期的备份和恢复。这种工作的重要性除了表现在数据的保全,系统的容灾方面,还表现在为应用系统的开发和测试搭建数据库环境。
设想在一个不断更新升级的应用环境中,数据库的数据在不断的更新,程序开发人员也在不断开发新的版本,建立测试数据和环境,对应用进行测试,再发布到生产环境下。这样,对于一个高复杂性的应用,使用生产环境中的真实数据来建立测试环境就变成了合理的选择。当然,在使用真实数据之前,为了保护公司利益可能需要删除或修改一些敏感的数据。
在上述场景下,数据库管理员就要根据项目开发的要求,把生产环境的数据复制到开发和测试环境。数据库重定向恢复技术就提供了一个比较快的方式帮助管理员完成这项工作。
本文针对哪有对 DB2 恢复有初步知识的读者,重点讨论在重定向恢复和前滚的过程当中经常碰到的问题,并通过一些实际应用中遇到的问题,探讨如何事先避免以及问题发生之后的解决办法。
回页首
DB2 重定向恢复和前滚知识简介
从上一节假定的场景中,我们知道 DB2 重定向恢复常用于在不同的环境中进行数据库的恢复。这些环境的不同就会给重定向恢复造成一些麻烦。比如:生产环境的内存通常比测试环境的都要大,生产环境中给事物日志分配的空间也要大一些,另外,最明显的区别就是测试环境中表空间的位置和原来在生产环境上不一样了。对于这些区别,提前了解和掌握以后就有助于预防和解决在数据库恢复时遇到的问题。下面就分别介绍重定向恢复和前滚的操作方法和相关命令。
自动生成重定向恢复脚本以及重定向恢复状态查询
DB2 提供了命令,供用户从一次数据库备份文件中提取数据库重定向恢复脚本。示例如下,其中 /db2_backup/db2inst1/sample 是数据库备份文件所在的目录,20101023180128 是数据库备份文件的时间戳。
db2 restore db sample from /db2_backup/db2inst1/sample taken at 20101023180128
redirect generate script redirect_sample.sql
DB20000I The RESTORE DATABASE command completed successfully.
所生成的重定向文件 redirect_sample.sql,可以分为三个部分:
1. Restore 语句
此语句用来标示一个重定向的恢复操作命令开始,它在普通恢复的命令上加了 redirect 参数。
RESTORE DATABASE SAMPLE
FROM '/db2_backup/db2inst1/sample'
TAKEN AT 20101023180128
INTO SAMPLE
REDIRECT;
2. set containers 语句:
当目标数据库所的物理存储设备与原来的数据库不一样时,就需要下面的命令来指定新的物理容器。
SET TABLESPACE CONTAINERS FOR 0
USING (
PATH '/db2inst1/SAMPLE'
);
SET TABLESPACE CONTAINERS FOR 1
USING (
PATH '/ db2inst1/temp'
);
SET TABLESPACE CONTAINERS FOR 2
USING (
DEVICE '/dev/rsample_1G' 131072
);
……
在数据库进行恢复的过程中,我们可以通过 list utilities 命令查看 restore 的状态。示例如下:
db2 list utilities show detail
ID = 4
Type = RESTORE
Database Name = SAMPLE
Partition Number = 0
Description = db
Start Time = 10/24/2010 13:49:17.515893
State = Executing
Invocation Type = User
Progress Monitoring:
Completed Work = 2938126336 bytes
Start Time = 10/24/2010 13:49:17.515898
其中的 Completed Work 代表已完成的数据量,与备份文件的大小比较可以估算出大概的完成时间。
常用前滚命令 , 所需日志文件的确定以及状态查询
前滚命令多种多样,这里不一一列举。最常用的语句就是 rollforward to 和 rollforward complete。
例如,使用指定目录的日志文件,前滚到某一时刻点:
rollforward db sample to 2010-11-21-17.00.00.000000
using local time overflow log path ( /db2_backup/sample/logs )
最有效的查询 rollforward 状态的语句:
db2 rollforward db db_name query status
例如,restore 成功结束,rollforward 还没有开始,查看状态会得到类似结果:
db2 rollforward db sample query status
Rollforward Status
Input database alias = sample
Number of nodes have returned status = 1
Node number = 0
Rollforward status = DB pending
Next log file to be read = S0001519.LOG
Log files processed = -
Last committed transaction = 2010-10-23-08.41.52.000000 UTC
我们可以得知,rollforward 要读取的下一个日志文件是 S0001519.LOG。
在数据库前滚的过程中,我们也可以通过 list utilities 查看前滚的状态。
$ db2 list utilities show detail
ID = 5
Type = ROLLFORWARD RECOVERY
Database Name = SAMPLE
Partition Number = 0
Description = Database Rollforward Recovery
Start Time = 10/25/2010 01:45:44.392021
State = Executing
Invocation Type = User
Progress Monitoring:
Phase Number [Current] = 1
Description = Forward
Completed Work = 824384727 bytes
Start Time = 10/25/2010 01:45:44.392051
Phase Number = 2
Description = Backward
Completed Work = 0 bytes
Start Time = Not Started
回页首
DB2 重定向恢复常见问题解析
在 DB2 重定向恢复的三个阶段中,错误常常发生在第二阶段,也就是 set tablespace containers 的时候。在这里列举了一些常见的错误,和这些错误的解决方法及预防。供大家参考。
对裸设备类型的容器,大小计算错误
命令及结果:
db2 set tablespace containers for 8 using( DEVICE '/dev/rsample_1G' 262144 )
SQL1422N The size of the container is invalid. SQLSTATE=54039
PP SIZE: 64 megabyte(s)
COPIES: 1
SCHED POLICY: parallel
LPs: 16
PPs: 16
STALE PPs: 0
BB POLICY: relocatable
INTER-POLICY: minimum
RELOCATABLE: yes
INTRA-POLICY: middle
UPPER BOUND: 1024
MOUNT POINT: N/A
LABEL: None
MIRROR WRITE CONSISTENCY: on/ACTIVE
EACH LP COPY ON A SEPARATE PV ?: yes
Serialize IO ?: NO
DEVICESUBTYPE : DS_LVZ
计算公式如下:PPs * PP Size / pagesize
此处,pagesize 按照8 K 计算 。
db2 set tablespace containers for 8 using( DEVICE '/dev/rsample_1G' 131072 )
DB20000I The SET TABLESPACE CONTAINERS command completed successfully.
指定的容器,已经被使用了
命令及结果:
db2 set tablespace containers for 64 using( DEVICE '/dev/rsample_4G' 524288 )
SQL0294N The container is already in use. SQLSTATE=42730
指定的容器类型,与原有容器不一致
命令及结果:
db2 set tablespace containers for 3 using( PATH '/db2inst1/SAMPLE/TBS/SYSTOOL’)
SQL0298N Bad container path. SQLSTATE=428B2
解决方法以及预防:
原有容器是 FILE 类型,如果在重定向恢复的时候指定为 PATH,就会报错。
修改后:
db2 set tablespace containers for 3
using( File '/db2inst1/SAMPLE/TBS/SYSTOOL.DAT' 100 )
DB20000I The SET TABLESPACE CONTAINERS command completed successfully.
指定的容器名发生错误
命令及结果:
db2 set tablespace containers for 106
using( DEVICE '/dev/dev/rsample_500M' 65536 )
SQL0298N Bad container path. SQLSTATE=428B2
解决方法以及预防:
确保容器名及路径的正确性。
db2 set tablespace containers for 106
using( DEVICE '/dev/rsample_500M' 65536)
DB20000I The SET TABLESPACE CONTAINERS command completed successfully.
Restore db continue 的时候发生错误,数据库恢复目录满
db2 restore db sample continue
SQL2544N The directory where the database is being restored has become full.
解决方法以及预防:
检查包含 PATH 的语句,
set tablespace containers for 0 using(
PATH '/db2inst1/SAMPLE'
) ;
可能的原因:
目录 /db2inst1/SAMPLE 满了。
重点检查 SMS 表空间所在目录的使用情况。更换或者扩充文件系统。也可以通过 db2diag.log 文件得到更详细的信息。
回页首
前滚常见问题解析
运行 rollforward 时,日志文件缺失
命令及结果:
db2 "rollforward db sample to 2010-10-24-17.00.00
using local time overflow log path (/db2_backup/db2inst1/logs)"
SQL4970N Roll-forward recovery on database "SAMPLE" cannot reach the specified
stop point (end-of-log or point-in-time) on database partition(s) "0".
Roll-forward recovery processing has halted on log file "S0102805.LOG".
解决方法以及预防:
从备份磁盘获取所需的日志文件。然后再次运行 rollforward 命令。
也可以通过以下命令来提前准备所需日志文件,避免出错。可以从“Start Time”和“End Time”判断 rollforward 到某个时间点所需的最后的一个日志文件。
db2 list history archive log since 20101023040030 for sample | more
List History File for sample
Number of matching file entries = 30
Op Obj Timestamp+Sequence Type Dev Earliest Log Current Log Backup ID
-- --- -------- ---- --- ------- ------- --------
X D 20101023045856 1 U S0102805.LOG C0000000
-------------------------------------------
-------------------------------------------
Comment:
Start Time: 20101023045856
End Time: 20101026033936
Status: A
-------------------------------------------
运行 rollforward complete 时,活动日志空间满
命令及结果:
db2 "rollforward db sample complete overflow log path /db2_backup/db2inst1/logs)"
SQL1004C There is not enough storage on the file system to process the command.
解决方法以及预防:
修改数据库配置参数 NEWLOGPATH,指定空间更大的目录作为活动日志目录。然后再次运行 rollforward 命令。
db2 update db cfg for sample using NEWLOGPATH /db2_backup/db2inst1_log01/sample
或者提前修改 redirect restore 命令,在做数据库恢复的时候就指定更大的目录作为活动日志目录。这样可以避免在 rollforward 的过程中遇到问题。
db2 "restore db sample \
from /db2_backup/db2inst1/backup \
taken at 20101023084025 newlogpath /db2_backup/db2inst1_log01/sample \
redirect"
与缓冲池相关的错误 ,解决方法以及预防
命令及结果:
db2 "rollforward db sample to 2010-11-21-17.00.00.000000
using local time overflow log path ( /db2_backup/db2inst1/SAMPLE/logs ) "
SQL1218N There are no pages currently available in bufferpool "".
SQLSTATE=57011
错误日志(db2diag.log):
2010-11-24-05.19.14.842891-300 I67571A941 LEVEL: Error
PID : 296330 TID : 75304
PROC : db2sysc 0
INSTANCE: db2inst1 NODE : 000 DB : SAMPLE
APPHDL : 0-27 APPID: *LOCAL.db2inst1.101124101914
AUTHID : DB2INST1
EDUID : 75304 EDUNAME: db2agent (SAMPLE) 0
FUNCTION: DB2 UDB, SQO Memory Management, SqloMemController::registerConsumer, p
robe:1000
MESSAGE : ZRC=0x8B0F0000=-1961951232=SQLO_NOMEM "No Memory Available"
DIA8300C A memory heap error has occurred.
与表空间状态相关的错误,解决方法以及预防
LOAD 操作可能会对 rollforward 造成一定的影响。有时候在 rollforward 的过程中需要交互操作。如果选择 (t),会造成表空间的状态不正常。
命令及结果:
db2 "rollforward db sample to 2010-11-19-17.00.00
using local time overflow log path ( /db2_backup/db2inst1/logs )"
SQL3799W Load recovery for table "TEST .WORK_DETAIL" at time
"20101116221501" on node "0" is pending due to warning "-2061" with additional
information "/dev/null".
Do you want to continue(c),terminate this device only(d),abort the utility(t) ?
解决方法以及预防:
我们可以查看某一备份时刻之后的 LOAD 操作情况。
db2 list history backup since 20101120170928 for sample | more
如果出现了 rollforward 造成的表空间不可用。我们可以进行相应的表空间恢复。或者删除、重建相应的表空间,并导入数据。
与表状态相关的错误,解决方法以及预防
在数据库 restore 和 rollforward 完成之后,检查每个数据表的状态时,可能会发现有的数据表状态不可用。简单的方法是过滤 db2diag.log 文件,找出类似下面的错误信息。
错误日志(db2diag.log):
2010-11-26-08.01.51.170966-300 E21515A743 LEVEL: Warning
PID : 3104786 TID : 26364 PROC : db2sysc 0
INSTANCE: db2inst1 NODE : 000 DB : SAMPLE
APPHDL : 0-380 APPID: *LOCAL.db2inst1.101126125907
AUTHID : DB2INST1
EDUID : 26364 EDUNAME: db2redom (SAMPLE) 0
FUNCTION: DB2 UDB, data management, sqldMarkObjInErr, probe:1
MESSAGE : ADM5571W DB2 is marking the "DATA" object with id "141" in
tablespace "8" for table "TBSPACEID=8.TABLEID=141" unavailable.
Either the table will have to be dropped, or if the object is part of
a partitioned table the partition in error can be detached or the
index in error can be dropped.