窗函数 (SQL)
在SQL中,窗函数(window function)或分析函数(analytic function)[1]是一个函数,它使用来自一行或多行的值来为每一行返回一个值。 与之形成对比,聚合函数为多行返回单个值。窗口函数有一个OVER
子句;任何没有OVER
子句的函数都不是窗口函数,而是聚合函数或单行(标量)函数。[2]
例子1
[编辑]例如,这里有一个查询,它使用一个窗口函数来比较每个员工的工资与其部门的平均工资(来自PostgreSQL文档的示例):[3]
SELECT depname, empno, salary, avg(salary) OVER (PARTITION BY depname) FROM empsalary;
输出:
depname | empno | salary | avg ----------+-------+--------+---------------------- develop | 11 | 5200 | 5020.0000000000000000 develop | 7 | 4200 | 5020.0000000000000000 develop | 9 | 4500 | 5020.0000000000000000 develop | 8 | 6000 | 5020.0000000000000000 develop | 10 | 5200 | 5020.0000000000000000 personnel | 5 | 3500 | 3700.0000000000000000 personnel | 2 | 3900 | 3700.0000000000000000 sales | 3 | 4800 | 4866.6666666666666667 sales | 1 | 5000 | 4866.6666666666666667 sales | 4 | 4800 | 4866.6666666666666667 (10 rows)
PARTITION BY
子句将行分组,并且该函数分别应用于每个分组。 如果PARTITION BY
子句被省略(例如如果我们有一个空的OVER()
子句),那么整个结果集被视为单个分组。[4]对于此查询,报告的平均工资将是所有行的平均值。
窗口函数在聚合之后进行评估(例如,在 GROUP BY
子句和非窗口聚合函数之后)。[1]
语法
[编辑]根据PostgreSQL文档,窗函数具有下列之一的语法:[4]
function_name ([expression [, expression ... ]]) OVER window_name function_name ([expression [, expression ... ]]) OVER ( window_definition ) function_name ( * ) OVER window_name function_name ( * ) OVER ( window_definition )
其中function_name
包括:
- 开窗函数
- 序号函数
- ROW_NUMBER:顺序排序——1、2、3
- RANK:并列排序,跳过重复序号——1、1、3
- DENSE_RANK:并列排序,不跳过重复序号——1、1、2
- 分布函数
- PERCENT_RANK
- CUME_DIST
- 前驱后继函数
- LAG(expr,n):返回当前行的前n行的expr的值
- LEAD(expr,n):返回当前行的后n行的expr的值
- 头尾函数
- FIRST_VALUE(expr)
- LAST_VALUE(expr)
- 其他函数
- NTH_VALUE(expr,n):返回第n行的expr值
- NTILE(n):将有序数据分为n个桶,记录等级数
- 序号函数
- 所有聚合函数
其中 window_definition
具有语法:
[ existing_window_name ] [ PARTITION BY expression [, ...] ] [ ORDER BY expression [ ASC | DESC | USING operator ] [ NULLS { FIRST | LAST } ] [, ...] ] [ frame_clause ]
frame_clause
具有下列之一的语法:
{ RANGE | ROWS | GROUPS } frame_start [ frame_exclusion ] { RANGE | ROWS | GROUPS } BETWEEN frame_start AND frame_end [ frame_exclusion ]
frame_start
与frame_end
可以是UNBOUNDED PRECEDING
, offset PRECEDING
, CURRENT ROW
, offset FOLLOWING
, UNBOUNDED FOLLOWING
. frame_exclusion
可以是EXCLUDE CURRENT ROW
, EXCLUDE GROUP
, EXCLUDE TIES
, EXCLUDE NO OTHERS
.
expression
指不包含窗函数调用的任何表达式。
注:
- 方括号[]指可选子句
- 圆括号{}指多种选项的集合,选项之间以竖杠|分割
例子2
[编辑]窗函数允许访问恰在当前记录之前和之后的记录的数据。[5][6][7][8] 一个窗函数定义当前行周围具有给定行数的帧或窗,并跨窗对数据集执行计算。[9][10]
NAME | ------------ Aaron| <-- Preceding (unbounded) Andrew| Amelia| James| Jill| Johnny| <-- 1st preceding row Michael| <-- Current row Nick| <-- 1st following row Ophelia| Zach| <-- Following (unbounded)
在上表中,下一个查询为每一行提取具有前一行和后一行的窗口的值w:
SELECT LAG(name, 1) OVER(ORDER BY name) "prev", name, LEAD(name, 1) OVER(ORDER BY name) "next" FROM people ORDER BY name
查询结果为:
| PREV | NAME | NEXT | |----------|----------|----------| | (null)| Aaron| Andrew| | Aaron| Andrew| Amelia| | Andrew| Amelia| James| | Amelia| James| Jill| | James| Jill| Johnny| | Jill| Johnny| Michael| | Johnny| Michael| Nick| | Michael| Nick| Ophelia| | Nick| Ophelia| Zach| | Ophelia| Zach| (null)|
例子3
[编辑]# 首先创建虚拟的业务员销售数据 CREATE TABLE Sales ( idate date, iname char(2), sales int ); # 向表中插入数据 INSERT INTO Sales VALUES ('2021/1/1', '丁一', 200), ('2021/2/1', '丁一', 180), ('2021/2/1', '李四', 100), ('2021/3/1', '李四', 150), ('2021/2/1', '刘猛', 180), ('2021/3/1', '刘猛', 150), ('2021/1/1', '王二', 200), ('2021/2/1', '王二', 180), ('2021/3/1', '王二', 300), ('2021/1/1', '张三', 300), ('2021/2/1', '张三', 280), ('2021/3/1', '张三', 280); # 查询各月中销售业绩最差的业务员 SELECT * FROM (SELECT month(idate),iname,sales, ROW_NUMBER() OVER(PARTITION BY month(idate) ORDER BY sales) as sales_order FROM Sales) as t WHERE sales_order=1;
例子4
[编辑]求用户连续登录天数
# 首先创建虚拟的用户登录表,并插入数据 create table user_login ( user_id varchar(100), login_time datetime ); insert into user_login values (1,'2020-11-25 13:21:12'), (1,'2020-11-24 13:15:22'), (1,'2020-11-24 10:30:15'), (1,'2020-11-24 09:18:27'), (1,'2020-11-23 07:43:54'), (1,'2020-11-10 09:48:36'), (1,'2020-11-09 03:30:22'), (1,'2020-11-01 15:28:29'), (1,'2020-10-31 09:37:45'), (2,'2020-11-25 13:54:40'), (2,'2020-11-24 13:22:32'), (2,'2020-11-23 10:55:52'), (2,'2020-11-22 06:30:09'), (2,'2020-11-21 08:33:15'), (2,'2020-11-20 05:38:18'), (2,'2020-11-19 09:21:42'), (2,'2020-11-02 00:19:38'), (2,'2020-11-01 09:03:11'), (2,'2020-10-31 07:44:55'), (2,'2020-10-30 08:56:33'), (2,'2020-10-29 09:30:28'); # 第一种情况:查看每位用户连续登陆的情况。包括每位用户连续登录的情况、查看每位用户最大连续登录的天数、查看在某个时间段里连续登录天数超过N天的用户 select user_id, min(login_date) start_date, max(login_date) end_date, count(login_date) days # 计算每位用户连续登录天数 from (select *,date_sub(login_date, interval irank day) idate # 增加辅助列,以判断用户是否连续登录 from (select *,rank() over(partition by user_id order by login_date) irank # 对每个用户的登录日期排序 from (select distinct user_id, date(login_time) login_date from user_login # 数据预处理:由于统计的窗口期是天数,对登录时间字段格式转换为日期然后去重(去掉用户一天内多次登录的情况) ) as a ) as b ) as c group by user_id,idate; # 第二种情况:计算每个用户最大连续登录天数 # 第三种情况:查看给定时间段内连续登录天数≥5天的用户 # 找出相差天数为5的记录 select distinct user_id from (select *,datediff(idate5,login_date)+1 as days # 计算当前登录日期与之后第4次登陆的日期的差值 from (select *,lead(login_date,4) over(partition by user_id order by login_date) idate5 # 获取当前登录日期之后第4次登陆的日期 from user_logrin_date) as a) as b where days = 5;
历史
[编辑]SQL:2003引入了窗函数,其后的标准扩展了其功能。[11]
MySQL从8.0开始引入了窗函数。目前支持的语法为:
# 开窗函数语法 func_name(<parameter>) OVER([PARTITION BY <part_by_condition>] [ORDER BY <order_by_list> ASC|DESC])
参考文献
[编辑]- ^ 1.0 1.1 Analytic function concepts in Standard SQL | BigQuery. Google Cloud. [2021-03-23]. (原始内容存档于2022-03-24) (英语).
- ^ Window Functions. sqlite.org. [2021-03-23]. (原始内容存档于2022-11-17).
- ^ 3.5. Window Functions. PostgreSQL Documentation. 2021-02-11 [2021-03-23]. (原始内容存档于2022-10-31) (英语).
- ^ 4.0 4.1 4.2. Value Expressions. PostgreSQL Documentation. 2021-02-11 [2021-03-23]. (原始内容存档于2022-10-10) (英语).
- ^ Leis, Viktor; Kundhikanjana, Kan; Kemper, Alfons; Neumann, Thomas. Efficient Processing of Window Functions in Analytical SQL Queries. Proc. VLDB Endow. June 2015, 8 (10): 1058–1069. ISSN 2150-8097. doi:10.14778/2794367.2794375.
- ^ Cao, Yu; Chan, Chee-Yong; Li, Jie; Tan, Kian-Lee. Optimization of Analytic Window Functions. Proc. VLDB Endow. July 2012, 5 (11): 1244–1255. ISSN 2150-8097. arXiv:1208.0086
. doi:10.14778/2350229.2350243.
- ^ Probably the Coolest SQL Feature: Window Functions. Java, SQL and jOOQ. 2013-11-03 [2017-09-26]. (原始内容存档于2021-06-24) (美国英语).
- ^ Window Functions in SQL - Simple Talk. Simple Talk. 2013-10-31 [2017-09-26]. (原始内容存档于2021-09-22) (美国英语).
- ^ SQL Window Functions Introduction. Apache Drill. (原始内容存档于2022-10-10).
- ^ PostgreSQL: Documentation: Window Functions. www.postgresql.org. [2020-04-04]. (原始内容存档于2022-11-02) (英语).
- ^ Window Functions Overview. MariaDB KnowledgeBase. [2021-03-23]. (原始内容存档于2022-10-15).