设为首页 收藏本站
查看: 1074|回复: 0

[经验分享] SQL Server 2008的窗口计算

[复制链接]

尚未签到

发表于 2016-11-1 07:05:47 | 显示全部楼层 |阅读模式
  作者:张洪举,MVP
  应用于:SQL Server 2005,SQL Server 2008
  日期:2009/3/5
SQL Server中,窗口被定义为用户指定的一组行。例如,在下面表1所示的Students表中,包含有3个班级的学生成绩,则其中的每一个班级都可以被看作是一个数据窗口,或是分区。

ClassID
StudentName
Achievement
1
Grace
99.00
1
Andrew
99.00
1
Janet
75.00
1
Margaret
89.00
2
Steven
86.00
2
Michael
72.00
2
Robert
91.00
3
Laura
75.00
3
Ann
94.00
3
Ina
80.00
3
Ken
92.00

1 Students表中的窗口
之所以要提出窗口这个概念,因为这种基于窗口或分区的重新计算在实际工作应用范围比较广泛。例如,假设我们要对每个班级中的学生按成绩进行排序,在对第1个班级排序完成后,对第2个班级进行排序时编号需要重新从1开始。在SQL Server 2000中,像这种排序方式实现起来是比较烦琐的。可以说,对新窗口重新启动计算是窗口计算的重要特点。
为支持窗口计算,SQL Server提供了OVER子句和窗口函数。窗口函数在MSDN Library中被翻译为开窗函数。虽然“开窗函数”理解起来并不如“窗口函数”容易,但是它描述了数据窗口变化后重新启动计算这样一个动作,所以我们尊重MSDN Library中的翻译,在后续的介绍中将使用“开窗函数”这一名词。
窗口计算的两个主要应用就是对每组内的数据进行排序和聚合计算。因此,开窗函数也被分为排名开窗函数和聚合开窗函数。排名开窗函数如ROW_NUMBER( )RANK( ),聚合开窗函数如AVG( )SUM等。

1.基于窗口的排名计算
进行排名计算时,OVER子句的语法格式如下:
OVER ( [ PARTITION BY value_expression , ... [ n ] ]
<ORDER BY_Clause> )
PARTITION BY value_expression
指定对相应FROM子句生成的行集进行分区所依据的列。开窗函数分别应用于每个分区,并为每个分区重新启动计算。value_expression只能引用通过FROM子句可用的列,不能引用选择列表中的表达式或别名。value_expression可以是列表达式、标量子查询、标量函数或用户定义的变量。
<ORDER BY 子句>
指定应用排名开窗函数的排序顺序。只能引用通过FROM子句可用的列,但是不同通过指定整数来表示选择列表中列名称或列别名的位置。
下面我们将以表1所示的Students表为例,进行介绍。像Students表这样的数据结构设计,相对于数据库存储而言是比较合理的,因为我们不可能为每个班级创建一个表,但确实又存在像为每个班级中的学生成绩进行排序或为学生编号这样的实际需求,SQL Server的窗口计算技术就有效解决了二者之间的矛盾。
SQL Server 2005开始,提供了4个排名函数,分别是:ROW_NUMBER( )RANK( )DENSE_RANK( )NTILE( ),它们可以为分区中的每一行返回一个排名值。ROW_NUMBER( )用于按行进行编号,RANK( )DENSE_RANK( )用于按指定顺序排名,NTILE( )用于对数据进行分区。
(1)ROW_NUMBER( )
ROW_NUMBER( )返回分区内行的序列号,每个分区的第一行从1开始。例如,下面的语句指定按ClassID进行分区,并按StudentName进行排序编号。查询结果如表2所示。
SELECT ClassID, StudentName, Achievement,
ROW_NUMBER() OVER(PARTITION BY ClassID ORDER BY StudentName) AS RowNumber
FROM Students;
2 按班级分区、按学生姓名进行编号
  
ClassID
StudentName
Achievement
RowNumber
1
Andrew
99.00
1
1
Grace
99.00
2
1
Janet
75.00
3
1
Margaret
89.00
4
2
Michael
72.00
1
2
Robert
91.00
2
2
Steven
86.00
3
3
Ann
94.00
1
3
Ina
80.00
2
3
Ken
92.00
3
3
Laura
75.00
4
为了理解SQL Server中排名函数的工作原理,我们来看一下查询优化器为查询生成的执行计划,如图1所示。

DSC0000.jpg 1 ROW_NUMBER( )生成的执行计划
由上图可以看出,为了计算排名,优化器首先按分区列排序,然后再对分区内行按ORDER BY子句指定的列排序。如果事先为表创建了符合该排序条件的索引,则会直接扫描该索引文件,不再进行排序。
“序列射影”运算符的工作是负责计算排名,“段”运算符用于确定分组边界。二者相互协调工作,来确定每一行的排名值。
“段”运算符在内存中会保留一行,用来与下一行的PARTITION BY列值进行比较。对于表中的第一行,“段”运算符自然会发送true信号。对于后面的行,直到PARTITION BY列值有变化之前,会一直发送false信号。如果PARTITION BY列值发生了变化,说明已经到了下一个分区,“段”运算符会再次发送true信号。“序列射影”运算符在接收到true信号后,会重置排名值。
如果“序列射影”运算符接收到的是false信号,它会确认当前输入行的排序值是否不同于上一行,如果不同,则按排名函数所指示的递增排名值。自然,在该示例中,由于ROW_NUMBER( )函数需要为每一行递增值。因此,这个排序值比较步骤在该示例中是不存在的。但是,对于像RANK( )DENSE_RANK( )函数,在执行计划中还会有另外一个“段”运算符,用于比较排序值是否有变化,以确定是否递增排名值。此问题我们在下面还会有介绍。
(2)RANK( )DENSE_RANK( )函数
ROW_NUMBER( )函数用于编号,它与排名具有不同的概念。例如,由表1可以看出,班级1中的GraceAndrew的成绩相同,都是99分。如果使用ROW_NUMBER( )函数编号,有两种编号方案可供选择:一种是Grace1Andrew2,另一种是Andrew1Grace2。这虽然都是正确的,它具有不确定性。
而排名则不同了,它具有确定性,相同的排序值总是被分配相同的排名值。GraceAndrew在排名的情况下都应当是第1,也就是我们常说的并列第1。那他们两人之后的名次是什么呢?是第2还是第3呢?从两人并列第1的角度讲,他们两人之后的名次应当是第2,这也是DENSE_RANK( )函数的排名方式;前面已经有2个人99分了,他们后面的人应当是第3个高分者,从这个角度理解,后面的名次应当是第3,这也是RANK( )的排名方式。DENSE_RANK( )函数的排名方式我们称之为密集排名,因为它的名次之间没有间隔。
下面的语句演示了RANK( )DENSE_RANK( )的排名方式,查询结果如表3所示。
SELECT ClassID, StudentName, Achievement,
RANK() OVER(PARTITION BY ClassID ORDER BY Achievement DESC) AS SortRank,
DENSE_RANK() OVER(PARTITION BY ClassID ORDER BY Achievement DESC) AS SortDense
FROM Students;
3 按班级和考试成绩分别使用RANK( )DENSE_RANK( )排名
  
[table][tr][td=1,1,116]ClassID
[/td][td=1,1,116]StudentName
[/td][td=1,1,116]Achievement
[/td][td=1,1,116]SortRank
[/td][td=1,1,116]SortDense
[/td][/tr][tr][td=1,1,116]1
[/td][td=1,1,116]Grace
[/td][td=1,1,116]99.00
[/td][td=1,1,116]1
[/td][td=1,1,116]1
[/td][/tr][tr][td=1,1,116]1
[/td][td=1,1,116]Andrew
[/td][td=1,1,116]99.00
[/td][td=1,1,116]1
[/td][td=1,1,116]1
[/td][/tr][tr][td=1,1,116]1
[/td][td=1,1,116]Margaret
[/td][td=1,1,116]89.00
[/td][td=1,1,116]3
[/td][td=1,1,116]2
[/td][/tr][tr][td=1,1,116]1
[/td][td=1,1,116]Janet
[/td][td=1,1,116]75.00
[/td][td=1,1,116]4
[/td][td=1,1,116]3
[/td][/tr][tr][td=1,1,116]2
[/td][td=1,1,116]Robert
[/td][td=1,1,116]91.00
[/td][td=1,1,116]1
[/td][td=1,1,116]1
[/td][/tr][tr][td=1,1,116]2
[/td][td=1,1,116]Steven
[/td][td=1,1,116]86.00
[/td][td=1,1,116]2
[/td][td=1,1,116]2
[/td][/tr][tr][td=1,1,116]2
[/td][td]padding-right: 5.4pt; border-top: #f0f0f0; padding-left: 5.4pt; padding-bottom: 0cm; border-left: #f0f0f0; width: 87.2pt; padding-top: 0cm;

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-293965-1-1.html 上篇帖子: SQL Server日期格式的转换 下篇帖子: sql server中的real数据类型
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表