В SQL Server 2019 аналитические функции не возвращают результаты, которых я ожидал бы в контексте рекурсивных общих табличных выражений. Рассмотрим следующий нерекурсивный запрос T-SQL:
WITH SourceData (RowNum, Uniform, RowVal) AS (
SELECT 1, 'A', 'A' UNION ALL
SELECT 2, 'A', 'B' UNION ALL
SELECT 3, 'A', 'C' UNION ALL
SELECT 4, 'A', 'D'
),
RecursiveCte0 (RowNum, Uniform, RowVal, MinVal, SomeSum, RowNumCalc, RecursiveLevel) AS (
SELECT RowNum, Uniform, RowVal, RowVal, RowNum, CAST(RowNum AS BIGINT), 0
FROM SourceData
),
RecursiveCte1 (RowNum, Uniform, RowVal, MinVal, SomeSum, RowNumCalc, RecursiveLevel) AS (
SELECT * FROM RecursiveCte0
UNION ALL
SELECT
RowNum, Uniform, RowVal,
MIN(MinVal) OVER (PARTITION BY Uniform),
SUM(RowNum) OVER (PARTITION BY Uniform),
ROW_NUMBER() OVER (PARTITION BY Uniform ORDER BY RowNum),
RecursiveLevel + 1
FROM RecursiveCte0
)
SELECT *
FROM RecursiveCte1
ORDER BY RecursiveLevel, RowNum;
Полученные результаты:
RowNum Uniform RowVal MinVal SomeSum RowNumCalc RecursiveLevel
1 A A A 1 1 0
2 A B B 2 2 0
3 A C C 3 3 0
4 A D D 4 4 0
1 A A A 10 1 1
2 A B A 10 2 1
3 A C A 10 3 1
4 A D A 10 4 1
Как и ожидалось, функции MIN
, SUM
и ROW_NUMBER
генерируют соответствующие значения на основе всех строк из RecursiveCte0
. Я ожидал бы, что следующий рекурсивный запрос будет логически идентичен нерекурсивной версии выше, но он дает разные результаты:
WITH SourceData (RowNum, Uniform, RowVal) AS (
SELECT 1, 'A', 'A' UNION ALL
SELECT 2, 'A', 'B' UNION ALL
SELECT 3, 'A', 'C' UNION ALL
SELECT 4, 'A', 'D'
),
RecursiveCte (RowNum, Uniform, RowVal, MinVal, SomeSum, RowNumCalc, RecursiveLevel) AS (
SELECT RowNum, Uniform, RowVal, RowVal, RowNum, CAST(RowNum AS BIGINT), 0
FROM SourceData
UNION ALL
SELECT
RowNum, Uniform, RowVal,
MIN(MinVal) OVER (PARTITION BY Uniform),
SUM(RowNum) OVER (PARTITION BY Uniform),
ROW_NUMBER() OVER (PARTITION BY Uniform ORDER BY RowNum),
RecursiveLevel + 1
FROM RecursiveCte
WHERE RecursiveLevel < 1
)
SELECT *
FROM RecursiveCte
ORDER BY RecursiveLevel, RowNum;
Полученные результаты:
RowNum Uniform RowVal MinVal SomeSum RowNumCalc RecursiveLevel
1 A A A 1 1 0
2 A B B 2 2 0
3 A C C 3 3 0
4 A D D 4 4 0
1 A A A 1 1 1
2 A B B 2 1 1
3 A C C 3 1 1
4 A D D 4 1 1
Кажется, что для каждой из трех аналитических функций группировка применяется только в контексте каждой отдельной строки, а не всех строк на этом уровне. Это неожиданное поведение также происходит, если я разбиваю (SELECT NULL)
. Я ожидал, что аналитические функции будут применяться ко всему уровню рекурсии согласно MSDN:
Analytic and aggregate functions in the recursive part of the CTE are applied to the set for the current recursion level and not to the set for the CTE. Functions like
ROW_NUMBER
operate only on the subset of data passed to them by the current recursion level and not the entire set of data passed to the recursive part of the CTE.
Почему эти два запроса дают разные результаты? Есть ли способ эффективно использовать аналитические функции с рекурсивными общими табличными выражениями?
Отвечает ли это на ваш вопрос? Почему рекурсивные CTE запускают аналитические функции (ROW_NUMBER) процедурно?
@Charlieface Спасибо; существующий вопрос имеет отношение, но, я думаю, не совсем то же самое. Предполагалось, что аналитическая функция должна применяться ко всей рекурсивной части rCTE. MSDN и ответ объясняют, что агрегатные / аналитические функции применяются только к текущему уровню рекурсии, как я ожидал, но не вижу. Ни в одном из них не указано, что область действия функции ограничена отдельными строками.
Правда, этот ответ на самом деле вообще не отвечает на вопрос, но вопрос тот же самый, если вы внимательно посмотрите. См. Также объяснятьextended.com/2009/11/18/…, ссылка на который есть там
Я только что нашел еще один вопрос, ответ которого согласуется с построчным объяснением, а также указывает на документацию MSDN. Однако я все еще не думаю, что MSDN говорит об этом; он говорит «о подмножестве данных, переданных им на текущем уровне рекурсии», ничего не о построчном.
Я думаю, это типичная плохая формулировка в MSDN. В любом случае, вот как это работает, и как это всегда работало. Это не ошибка. Кстати, учитывая низкую производительность rCTE и вашу проблему, вам, вероятно, лучше использовать табличную переменную и цикл while
, как бы ужасно это ни выглядело.
Нет, вы не можете сделать это так, как вам бы хотелось. Вы неправильно читаете MSDN, это специально исключает ваш случай. Это связано с тем, что rCTE обрабатывается стеком: каждое подмножество обрабатывается строка за строкой (гораздо больше похоже на Oracle
CONNECT BY
, чем на написанный SQL), поэтому номер строки применяется только к этой строке с ее непосредственным соединением.