设为首页 收藏本站
查看: 1206|回复: 0

[经验分享] 在SQL Server 2008中实现change data capture (CDC) Part One

[复制链接]

尚未签到

发表于 2015-6-27 20:30:40 | 显示全部楼层 |阅读模式
此文章基于SQL Server 2008 CTP3 (Jun 04, 2007)。  change data capture是在每次对数据库执行insert、update、delete操作的时候,捕获变更数据的方法,这在数据仓库中是常用到的技术手段。Oracle早在9i中就加入了这一特性,在多年后的今天,SQL Server总算是提供了同样的功能。
  CDC的原理是每次对源表(Source Tables)执行insert、update、delete时,数据库事务日志会记录DML造成的变更数据,然后捕获处理过程将日志中源表的变更数据写入变更捕获表(Change Tables),最后ETL工具使用CDC查询函数将变更数据抽取到数据仓库。

  
   DSC0000.jpg

相比起在源表建立促发器,CDC对源表事务性能影响小,而且可以获取变更元数据。
  
这里示范一个CDC过程
  第一步    启用数据库的SQL Server Agent。

第二步    建立一个数据库Database for CDC。
  第三步    然后以服务角色sysadmin的用户登录,执行下面的命令:

  

  USE [Database for CDC];
  GO
  EXECUTE [sys].[sp_cdc_enable_db_change_data_capture];
  GO










  执行命令后即启用了数据库的CDC特性。启用CDC特性后系统会自动建立名为CDC的构架和用户,并建立了几个用于CDC的数据表。
   DSC0001.jpg



第四步
建立源表Source_Table,且将column_1列作为唯一索引IX_Source_Table

DSC0002.jpg


  
第五步 执行命令:
  

  EXEC sys.sp_cdc_enable_table_change_data_capture
      @source_schema = 'dbo'
   , @source_name = 'Source_Table'
   , @role_name = 'change_table_user1'
   , @index_name = 'IX_Source_Table'
   , @capture_instance = 'ST_Instance'
   , @supports_net_changes = 1
   , @captured_column_list = 'column_key, column_1, column_2'
   , @filegroup_name = 'PRIMARY';

















这个命令指定捕获源表Source_Table的变化,参数说明如下:  
  参数
  说明
  source_schema
  源表的构架名
  source_name
  源表名
  role_name
  获取变化数据的数据库角色,如果角色不存在,sp_cdc_enable_table_change_data_capture过程执行成功后会创建角色
  index_name
  唯一索引名,不是必须的,如果源表没有主键可以指定唯一索引以确定哪一行数据是变更数据
  capture_instance
  捕获实例,一个源表最多可以有两个实例
  supports_net_changes
  是否捕捉净变化数据,如果是的话,源表必须有主键或者指定唯一标识列
  captured_column_list
  需要在变更捕获表中保存的列
  filegroup_name
  变更捕获表使用的文件组
  为源表Source_Table成功建立捕获实例ST_Instance后,系统自动建立了变更捕获表ST_Instance_CT,变更捕获表的命名规则是实例名+CT。
  对源表执行DML命令时,每行受到DML影响的数据都会在变更捕获表中保存数据,不同的DML命令在变更捕获表中保存的数据不同。
  命令类型
  每行数据在变更捕获表的保存情况
  insert
  保存插入行的数据
  delete
  保存删除行的数据
  update
  保存两行数据,一行是更新前的,一行是更新后的
DSC0003.jpg
  
  可以看到,变更捕获表中除了我们需要保存源表的三个列外,还多出了5个以”__$”开头的列,用于记录元数据。
  列名
  说明
  __$start_lsn
  日志中序列号,在对源表执行DML时,每个事务有一个日志序列号
  __$end_lsn
  空,不使用
  __$seqval
  在一个事务中,DML影响行的序列号
  __$operation
  识别执行的是何种DML,1=delete,2=insert,3=update(更新前),4=update(更新后)
  __$update_mask
  用2进制标识哪一列发生变更
  可以先试着执行下面的命令,以检验CDC的效果:
  

  insert dbo.source_table
  values ('ck_1','c1_1','c2_1','c3_1');
  insert dbo.source_table
  values ('ck_2','c1_2','c2_2','c3_2');
  insert dbo.source_table
  values ('ck_3','c1_3','c2_3','c3_3');
  update dbo.source_table
  set column_2='c2_2_c'
  where column_key='ck_2';
  update dbo.source_table
  set column_key='ck_3_c'
  where column_key='ck_3';
  delete dbo.source_table
  where column_key='ck_3_c';
  
  select * from cdc.st_instance_ct;






























将cdc.st_instance_ct表中数据列出来后如下:  
__$start_lsn

__$end_lsn

__$seqval

__$operation

__$update_mask

column_key

column_1

column_2

1

0x0000002D000001A1002C

NULL

0x0000002D000001A10012

2

0x07

ck_1

c1_1

c2_1

2

0x0000002D000001A90004

NULL

0x0000002D000001A90002

2

0x07

ck_2

c1_2

c2_2

3

0x0000002D000001AB0004

NULL

0x0000002D000001AB0002

2

0x07

ck_3      

c1_3      

c2_3      

4

0x0000002E0000007E0022

NULL

0x0000002E0000007E0020

3

0x04

ck_2      

c1_2      

c2_2      

5

0x0000002E0000007E0022

NULL

0x0000002E0000007E0020

4

0x04

ck_2      

c1_2      

c2_2_c   

6

0x0000002E000000830007

NULL

0x0000002E000000830002

3

0x01

ck_3      

c1_3      

c2_3      

7

0x0000002E000000830007

NULL

0x0000002E000000830002

4

0x01

ck_3_c   

c1_3      

c2_3      

8

0x0000002E0000008A0006

NULL

0x0000002E0000008A0004

1

0x07

ck_3_c   

c1_3      

c2_3      

  其中__$update_mask是受影响的列,对insert和delete来说,影响全部的列,所以值是111(十进制的7);对column_key更新时,值是001(十进制1);对column_2更新时,值是100(十进制4)。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-81069-1-1.html 上篇帖子: SQL Server系列之 删除大量数据 下篇帖子: 也谈SQL Server表与Excel、Access数据互导
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表