SQL Server 大数据量数据存储设计思路分享

sunny03 · 发表于 2016-11-5 09:18:42

　　论坛上总看到有人说某某数据库几百万的数据量怎么提高查询速度等等，最近正好做了一个关于这方面的表结构优化，分享给大家，希望对大家有帮助。本人也不是什么大牛，只希望互相交流学习。仅为分享，不喜勿喷，谢谢。
　　言归正传，下面说一下具体的实现及效果。
　　应用场景：
　　一张日志表，记录每天150w左右的数据量，应用要求存储6个月以上，则共计27000w左右的数据规模，表从设计初期就考虑到数据增长会很快，所以采用的是日志表的形似记录的内容，前端应用不需和任何表关联，只需从这张表中读取数据即可。应用主要是根据不同的条件进行日志数据的检索和统计功能（时间条件，条件1，条件2），数据检索分页显示。
　　

　　原始处理方式，单表双TOP语句的方式。但是随着数据量的增长，检索速度越来越慢，老是出现查询超时的问题，同时由于双TOP方式分页的限制，导致页数越接近尾页越缓慢的现象。
　　

　　为了解决以上的问题，对原始数据表的结构进行了如下的调整。
　　

　　
　　数据库对于百万级别的数据量，响应速度还是很快的，但是对于上亿级别的数据量而言，由于存在着大量的磁盘IO，所以速度的降低不是线性的，而是呈现指数级的下降，所以，优化方法的中心思想就是减少结果集的数量，提高数据库本身的响应时间。
　　针对以上的想法，分4个步骤对数据库的存储结构及数据的选取方式进行以下的优化。
　　
　　
　　1.分而治之
　　对于几千万甚至亿级的数据，想在如此庞大的基础数据中做到快速响应的读取数据，比较可行的方法就是大而化小的思想。
　　大而化小的思想对于算法来说，怎样选取“小”这一概念的界定就很关键了，对于如此庞大的表，发现每天产生的数据量相对较稳定，基本维持在150w左右每天，这个数据量对于数据库来说是个可以快速进行响应的数据规模。而选择的太小，比如说按小时计算的方式，虽然单位的数据量减少了24倍，但是相对于数据量从150w到6w的时间提升远比1张表到24张表的维护性提高付出的代价多，所以最后决定采用按日分表的方式进行分表，这样以3个月的数据来说，从13500w的一张大表转化为150w的90张小表。这样可以改善最终结果的选取速度大大提升。
　　
　　
　　2.合而击之
　　经过以上的步骤，将大表划分为多个小表，虽然对于最终选取来说，只是从某一个小表中选取最终的数据，但是还是无法避免第一次进行所有涉及表的轮循计算行数的过程，这样与以前的方式相比数据量没有减少反而增加了算法的复杂度，所以单单分而治之的方法无法解决计算行数及页数的轮循产生的时间开销。
　　针对选取首页时的行数计算，可以反其道而行之，采用合而击之的方式，在数据初始化的时候进行以日为单位的选取条件统计，将统计结果分类存放于月表中，这样在选取时对于整日的区间只要直接从月表中读取响应日期的数据条目就可以了。
　　目前日志的查询条件有3组，分别是日期，条件1（固定），条件2（固定）。这样以日期为划分依据，就将检索条件由3组缩小为2组，减少了排列组合的数量，同时条件1和条件2的月表存储采用了“鸡兔同笼问题”的逆运算，通过选取条件确定某一类别的方式计算某一条件组合的信息条数。这样，实际的实验数据表明，可以讲150w的数据量缩小的4千左右的数据行数。对于表的数目来说每个月产生一张，代价很小。
　　CREATE TABLE monthtable
　　(
　　条件1，
　　条件2，
　　数量，
　　日期
　　)
　　
　　这样就有效地避免了在计算总行数时轮循所有日表的大量读取工作，节省了时间。
　　3.折半计算
　　以上的2部，可以解决大表，及轮循时耗费大量时间的问题，但是对于起始日期来说，如果是完整的一天可以直接从月表中读取数据，若不是完整的一天，则还是需要读取日表，虽然最多只需要读取两张日表，但是还是会浪费一些时间。
　　对于表的顺序选取来说，由于数据库本身的机制限制，所以无法避免的需要进行正逆两次数据的选取，所以现在可以做的就是减少首次选取的行数及减少排序操作的次数。
　　出于以上的目的，现将日表的数据选取方式修改为折半计算的方式。即选取行之前，先计算所选取的行是否超过表选取数据行数的一半，若未超过仍采用原始的数据选取方式，若超过，则通过倒序选取的方式从数据尾部提取数据，这样当选去的尾行<总行数一半时，选取时间与原是相同，当选取的尾行>总行数的一半时，由于少了一次排序，并且选取的行数也减少了，所以速度优于原始的选取方式，而且越接近数据尾部选取的速度越快，尾页的速度和首页相同，这要比原始的方式速度提升很多倍。
　　这样，扫描的结果集最大值仅为原始的一半，而且少了一次大结果集的排序过程，时间大大提高。
　　原始方式流程图：
　　

　　折中计算流程图：
　　

　　
　　4.创建统计表
　　在数据库的数据选取过程中创中间统计表存储结果，用于存取在每个日表中选取的数据行数，只要传入的参数不是选择首页，那么数据库都直接从统计表中读取行数，这样就不用每一页都计算总行数，节省大量时间。
　　
　　信息查询流程图：
　　优化前：
　　

　　
　　优化后：
　　

　　以上数据选取过程封装在存储过程中统一进行。
　　
　　统计优化测试数据：
　　数据量 14141687
　　单位（ms）
　　测试计算机配置：
　　CPU：Inter(R) Celeron(R) CPU 430 @ 1.80GHz 1.79GHz
　　Memory:2G （计算机存在其他服务，SQL Server 可利用的内存实际在1G左右）
　　每进行一次数据检索操作，均重启SQL Server服务。
　　优化前后数据库均已建立相关索引，索引在这里就不列出了。
　　由于数据库存在数据预热的阶段，所以平均值的计算方式为去掉最大值后计算的平均值，表中红色为去掉的测试时间。
　　

统计属性	方案	统计列	数据1	数据2	数据3	数据4	数据5	平均
条件1	优化前	14141687	51724	33373	31803	30563	37223	33241
条件1	优化后	14141687	347	17	16	17	20	18
比例		1	150	1964	1988	1798	1862	1847
条件2	优化前	14141687	52340	35465	35760	37856	34970	36013
条件2	优化后	14141687	383	23	17	16	20	19
比例		1	137	1542	2104	2366	1749	1896
按日统计	优化前	14141687	57796	45356	45710	44520	45586	45293
按日统计	优化后	14141687	727	14	17	16	13	15
比例		1	80	3240	2689	2783	3507	3020
按月统计	优化前	14141687	55180	42130	42063	42780	42493	42367
按月统计	优化后	14141687	380	10	7	13	7	9
比例		1	145	4213	6009	3291	6070	4708

　　
　　存储空间占用统计：
　　数据量14141687
　　单位（KB）
　　数据日期区间2011-11-25 ~ 2011-12-29

统计属性	占用空间	数据空间	索引空间	表数量
优化前	2150480	1593688	557792	1
优化后	2057688	1521752	535936	19
比例	0.9569	0.9549	0.9608	19

　　
　　信息查询优化测试数据：
　　
　　数据量 14141687
　　单位（ms）
　　每页行数：50
　　
　　由于数据库存在数据预热的阶段，所以平均值的计算方式为去掉最大值后计算的平均值，表中红色为去掉的测试时间。
　　
　　条件属性为：
　　1.统计时间：2011-11-16 0:00:00 ~ 2011-12-30 0:00:00
　　2.条件1：xxxx
　　3.条件2：xxxx
　　
　　
　　
　　测试1：以时间为筛选条件

方案	选取页	统计列	数据1	数据2	数据3	数据4	数据5	平均
优化前	首页	14141687	89426	64220	61466	62850	54046	60646
优化后	首页	14141687	1253	113	234	167	200	179
比例		1	71	568	263	376	270	339
优化前	第2页	14141687	34420	6423	6480	6350	6433	6422
优化后	第2页	14141687	416	16	14	20	13	16
比例		1	83	401	483	318	495	401
优化前	第3页	14141687	34020	5546	6446	6543	6486	6255
优化后	第3页	14141687	537	13	17	20	14	16
比例		1	63	427	379	327	463	391
优化前	第141417页	14141687	36640	9853	9833	10833	11160	10420
优化后	第141417页	14141687	2213	504	653	720	517	599
比例		1	17	20	15	15	22	18
优化前	尾页	14141687	37546	11443	11456	11290	11366	11389
优化后	尾页	14141687	590	23	17	17	17	19
比例		1	64	498	674	664	669	599

　　
　　
　　测试2：以时间和条件1为筛选条件

方案	选取页	统计列	数据1	数据2	数据3	数据4	数据5	平均
优化前	首页	66355	79003	42870	40183	49413	42683	43787
优化后	首页	66355	1136	226	163	203	104	174
比例		1	70	190	247	243	411	252
优化前	第2页	66355	34773	12690	12686	13026	12726	12782
优化后	第2页	66355	916	40	30	30	30	33
比例		1	38	317	423	434	424	387
优化前	第3页	66355	35746	12986	14296	12816	13880	13495
优化后	第3页	66355	820	33	37	40	40	38
比例		1	44	394	386	320	347	355
优化前	第664页	66355	41143	17736	17763	18763	17743	18001
优化后	第664页	66355	997	37	40	38	35	37
比例		1	41	479	444	494	507	487
优化前	尾页	66355	42463	18916	20100	20156	20093	19816
优化后	尾页	66355	1117	96	97	100	99	98
比例		1	38	197	207	202	203	202

　　
　　测试3：以时间和条件2为筛选条件

方案	选取页	统计列	数据1	数据2	数据3	数据4	数据5	平均
优化前	首页	4829945	84673	60546	60303	58516	58556	59480
优化后	首页	4829945	2033	193	184	220	160	189
比例		1	42	314	328	266	366	315
优化前	第2页	4829945	39156	15083	15526	15193	15210	15253
优化后	第2页	4829945	713	23	27	30	23	26
比例		1	55	656	575	506	662	587
优化前	第3页	4829945	36806	15053	15353	16230	15333	15493
优化后	第3页	4829945	727	20	20	24	17	20
比例		1	51	753	768	676	902	775
优化前	第48283页	4829945	44203	23950	24126	23386	23293	23689
优化后	第48283页	4829945	1314	507	500	510	503	505
比例		1	34	47	48	46	46	47
优化前	尾页	4829945	46203	24390	25596	25400	24333	24930
优化后	尾页	4829945	2012	1087	987	963	1000	1009
比例		1	23	22	26	27	24	25

　　
　　
　　
　　
　　
　　
　　
　　
　　测试4：以时间和条件1、条件2为筛选条件

方案	选取页	统计列	数据1	数据2	数据3	数据4	数据5	平均
优化前	首页	66353	78130	30340	28080	28210	27090	28430
优化后	首页	66353	1330	120	130	90	107	112
比例		1	59	253	216	314	254	254
优化前	第2页	66353	35150	12660	12553	12736	13250	12780
优化后	第2页	66353	848	20	23	20	20	21
比例		1	42	633	546	637	663	609
优化前	第3页	66353	34933	12996	12916	14226	12843	13246
优化后	第3页	66353	833	27	25	22	29	26
比例		1	42	482	517	647	443	510
优化前	第664页	66353	73570	27630	27096	26276	26053	26734
优化后	第664页	66353	1305	190	189	210	209	200
比例		1	57	146	144	126	125	134
优化前	尾页	66353	70176	32090	31000	32010	32110	31803
优化后	尾页	66353	1076	183	187	182	181	184
比例		1	66	176	166	176	178	173

　　
　　

　　
　　测试结果分析：
　　从统计功能来看，数据库的响应速度提升很大，从30秒左右提升到20毫秒左右，速度最大提升了4700多倍，效果明显。
　　从查询功能来看，数据库的响应速度提升没有统计功能明显，但是也从30多秒提高到200毫秒左右，提升了约400-500倍左右。
　　原因分析：统计功能利用本算法可以完全避免对于原始数据表的读取操作，所以对于该功能来说，只是操作几张4-5千条数据的表，所以响应时间快，但是对于查询功能来说，最终返回给用户的信息是具体的消息，所以无法避免的要对数据表进行查找，所以时间上消耗的多了些。但是基本上也都控制在200毫秒以下就可以做出响应。
　　
　　代价：
　　本机制采用的是复杂度换时间的方法，即数据库结构和选取方式的复杂度增加了，从而减少了在选取时消耗的时间，并且有一部分统计工作提到了选取操作以外进行，将时间分块，从而在感觉上降低了响应时间。
　　对于，日表及月表的数据填充工作可以使用数据库的作业，在业务不繁忙的时间进行原始表的划分工作。
　　对于测试数据来说，1千4百万的数据初始化需要十分钟左右的时间进行，可以选择凌晨1点开始，这样最长1-2个小时就可以把数据处理完毕。并且大量表的初始化只在第一次更换数据库结构时产生，以后每天进行的数据统计工作基本上只有200w左右，这个数量级只需要几分钟就可以完成，完全不影响软件每天的正常使用。
　　
　　 --转至：magician547的专栏

账号		自动登录	找回密码
密码			立即注册

HERE 使用 AWS EF 和 JFrog Artifactory 打

wirelessnetview好用的无线分析工具

Red Hat RHCE 8 (EX294) Cert Guide

亿图图示专家(EDraw Max) V7.9 中文破解版

zabbix3.4.1安装部署+微信推送信息+大屏显

Red Hat OpenShift I: Containers & Kubern

2025 年，C++ 还能“硬核”多久？

[经验分享] SQL Server 大数据量数据存储设计思路分享

浏览过的版块

扫码加入运维网微信交流群