设为首页 收藏本站
查看: 669|回复: 0

[经验分享] SQL SERVER定期转移海量数据方案收藏 查看分区在哪个文件组

[复制链接]
YunVN网友  发表于 2016-11-8 08:45:17 |阅读模式
  SQL SERVER定期转移海量数据方案
  
【关键词】
1、 分区切换
2、 BCP
3、 BULK INSERT
4、 Insert
  
【背景】
有个表比较巨大,每天新增约500万条记录。只保留最新7天数据,每天定期移走过期记录,归并到历史库。采用INSERT,DELETE的方法,消耗时间越来越长,平均达到45分钟,期间该表和历史库根本无法访问。
  
【方案】
1、 采用分区切换,快速清除旧数据
将表按日进行分区,每日一个区。
比如今天是2010年8月8日,有
--分区函数
CREATE PARTITION FUNCTION [CrPFN](smalldatetime) AS RANGE LEFT FOR VALUES (N'2010-08-01T00:00:00.000', N'2010-08-02T00:00:00.000', N'2010-08-03T00:00:00.000', N'2010-08-04T00:00:00.000', N'2010-08-05T00:00:00.000', N'2010-08-06T00:00:00.000', N'2010-08-07T00:00:00.000', N'2010-08-08T00:00:00.000', N'2010-08-09T00:00:00.000')
GO

--分区方案
CREATE PARTITION SCHEME [crSCM]AS PARTITION [CrPFN] TO ([cr0], [cr1], [cr2], [cr3], [cr4], [cr5], [cr6], [cr7], [cr8], [cr9])
GO

  巨大表应用此分区方案,数据按天划分,分布于[cr0]……[cr9]这10个文件组。另外,按照巨大表相同的结构,分别在这10个文件组中建立一个不分区的表:[Temp_0]……[Temp_9],每个文件组上有一个。
  分区切换步骤:
1) 分区切换,将最老分区数据切换到同一文件组的单表(秒杀,几百万条记录瞬时完成,不用1秒)
@day7ago SMALLDATETIME --当前日期的7天前
@day2later SMALLDATETIME --当前日期的2天后
ALTER TABLE [BigTable] SWITCH PARTITION $PARTITION.CrPFN(@day7ago) TO [Temp_0];

  
2) 将最老分区与次老分区合并,也就是8天前分区与7天前分区合并。由于8天前分区的数据已经切换掉,为空,所以合并也瞬时完成。
ALTER PARTITION FUNCTION CrPFN()MERGE RANGE (CONVERT(VARCHAR(10),@day7ago,120));
  
3) 修改分区方案,将原先最老分区对应的文件组插入到分区队列末尾,以重新使用。
ALTER PARTITION SCHEME [CrSCM]NEXT USED [cr0];
  
4) 拆分最新日期的分区,边界值推进到当前日期的2天后
ALTER PARTITION FUNCTION CrPFN()SPLIT RANGE (CONVERT(VARCHAR(10),@day2later,120));
因为最新日期所在分区还没有数据(因为是未来日期),所以拆分起来也是瞬间完成。这也正是我不只设置7个分区,而是10个分区,永远将边界值往未来移两天的原因。
  
5) 将移到单表的数据归并入历史库
如何归并,是下面一个话题。
  
6) 清空单表
TRUNCATE TABLE [Temp_0];
总结:
1) 永远只有10个分区,循环使用。最老的分区被合并出局后,马上又插到分区队列末尾。
2) 关键是如何找出分区位于哪个文件组,然后才能知道应该切换给哪个单表,才能放在作业里自动执行。这个方法详见拙作:
查看分区在哪个文件组
  3) 源表与单表的结构一定要一致。比如字段类型、是否可以为null,索引是否一致,等等。分区表的索引要与表对齐。是否压缩倒不用一致。
  
2、 bcp + BULK INSERT,将数据导入历史库
用bcp将数据库导出到文本文件,然后用BULK INSERT。
DECLARE @shell VARCHAR(500);
SET @shell = 'bcp [myDb].dbo.[' + @Table + '] out c:\data.txt -T -n';
EXEC xp_cmdshell @shell;
BULK INSERT [History].dbo.[Table1] FROM 'c:\data.txt';
EXEC xp_cmdshell 'del c:\data.txt';

  
总结:
1) bcp导出很快。400百万条记录20秒内完成。
2) BULK INSERT号称导入数据很快,但在我这里却没有见到效果。如果目标表是空表,400百万条数据可在1分半钟内导入成功。但我的历史表超过5亿条记录,里面两个索引,超过20分钟不见反应,比直接INSERT还要慢(INSERT大约17分钟),我失去了耐心,直接按取消了。
3) 其实BULK INSERT运行的这20分钟里,已经插入了100多万条,但这样的速度比直接用INSERT还要慢,让人无法接受。我估计是索引的缘故,如果将索引全部删掉,应该会快吧?但重建的时间会更长。究竟这个BULK INSERT是个什么机制,在这里会比INSERT更慢?有个网友说它会在tempDB里处理,然后再插进源表,但我在运行期间,观察了一下系统的tempDB,发现它的文件没有变化。
4) 失败。请高手赐教。

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-297171-1-1.html 上篇帖子: MS SQL SERVER海量数据库的查询优化及分页算法 下篇帖子: SQL Server 2005中的分区表(五):添加一个分区 (转)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表