Производительность SQL Server 2005: отчетливая или полная таблица в инструкции WHERE IN

У нас есть две таблицы:

Документ: id, title, document_type_id, showon_id
DocumentType: идентификатор, имя
Взаимосвязь: DocumentType имеет много документов. (Document.document_type_id = DocumentType.id)

Мы хотим получить список всех типов документов для одного заданного ShowOn_Id.

Мы видим две возможности:

SELECT DocumentType.*
FROM DocumentType
WHERE DocumentType.id IN (
    SELECT DISTINCT Document.document_type_id FROM Document WHERE showon_id = 42
);

SELECT DocumentType.*
FROM DocumentType
WHERE DocumentType.id IN (
    SELECT Document.document_type_id FROM Document WHERE showon_id = 42
);

Наш вопрос: когда и если лучше использовать DISTINCT для получения меньшего набора записей по сравнению с извлечением всей таблицы и оператором IN, перемещающим таблицу до первого совпадения. (Мы предполагаем, что это то, что он делает ;-))

Это по-разному для разных баз данных, есть ли общий ответ?

Или есть лучший способ сделать это? (Мы находимся в стране .NET)

sql-server database performance

08.10.2008 13:25

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

2 351

Перейти к ответу Данный вопрос помечен как решенный

Ответы 5

Вы можете использовать соединение:

SELECT DISTINCT DocumentType.*
FROM DocumentType
INNER JOIN Document
ON DocumentType.id=Document.document_type_id
WHERE Document.showon_id = 42

Я думаю, это лучший способ сделать это.

Спасибо, это, наверное, самое простое решение проблемы ... этот запрос быстрее, чем IN-подзапрос?

— 08.10.2008 14:53

Как указал ligged78, и вы тоже узнали, я был бы очень удивлен, если бы план запроса возвращал разные вещи. В конце концов, производительность должна основываться на дизайне вашей таблицы / индекса, а не на синтаксисе запроса.

— 13.10.2008 03:00

08.10.2008 13:52

Ответ принят как подходящий

С моей точки зрения, это не должно иметь никакого значения внутри SQL Server (но кто знает, как это реализовано).

Подумайте об этом так: чтобы вернуть набор результатов, серверу необходимо перейти в таблицу Document и получить все document_type_id WHERE showon_id = 42. В процессе получения document_type_ids (например, путем поиска по индексу) он помещает их в хеш-таблицу. Когда этот процесс завершится, хеш-таблица в любом случае будет содержать различные значения. После этого выполнение запроса переходит в таблицу Document_Type, сканирует первичный ключ и исследует хеш-таблицу. Обратите внимание, что это зависит, например, возможно, более эффективно не использовать хеш-таблицу, когда ожидаемое количество строк из таблицы Document мало по сравнению с Document_Type, но в целом вы получаете тот же план запроса, что и для только что предложенного запроса wmasm.

Это имеет смысл. И да, набор результатов должен быть одинаковым для обоих запросов. Итак, вопрос: отфильтровывает ли сервер повторяющиеся значения самостоятельно (и влияет ли эта фильтрация на производительность?), И если да, то делает ли он это таким же образом при использовании DISTINCT? (-> такая же скорость)

— 08.10.2008 15:03

Вы можете попробовать измерить производительность ваших данных для всех типов запросов. См. Инструмент datamanipulation.net/SQLQueryStress.

— 08.10.2008 15:51

08.10.2008 14:44

Используйте EXISTS. Иногда это быстрее, но, на мой взгляд, более читабельно, чем DISTINCT и JOIN. Просто для удовольствия, пожалуйста, ответьте с планом запроса для этого запроса и ПРИСОЕДИНЕНИЕМ выше и посмотрите, не изменилось ли что-нибудь (они могут быть оптимизированы до того же плана). Если они одинаковы, я бы рекомендовал EXISTS, поскольку он ближе к описанию на "простом языке", чем к JOIN (потому что вам не нужны какие-либо данные из документа и т. д.)

SELECT whatever
  FROM DocumentType dt
 WHERE EXISTS( SELECT *
                 FROM Document 
                WHERE dt.id     = document_type_id
                  AND showon_id = 42)

Чтобы получить план запроса (ссылка: http://msdn.microsoft.com/en-us/library/ms180765(SQL.90).aspx), выполните:

SET SHOWPLAN_TEXT ON
GO

SELECT ...
GO

08.10.2008 18:46

Следите за Мэтт ответ:

Я включил план запроса и протестировал следующие четыре разных запроса, которые возникли на данный момент:

SELECT DocumentType.* FROM DocumentType WHERE DocumentType.id IN (SELECT DISTINCT Document.document_type_id FROM Document WHERE showon_id = 42);
SELECT DocumentType.* FROM DocumentType WHERE DocumentType.id IN (SELECT Document.document_type_id FROM Document WHERE showon_id = 42);
SELECT DISTINCT DocumentType.* FROM DocumentType INNER JOIN Document ON DocumentType.id=Document.document_type_id WHERE Document.showon_id = 42;
SELECT DocumentType.* FROM DocumentType WHERE EXISTS ( SELECT * FROM Document WHERE DocumentType.id=Document.document_type_id AND showon_id = 42);

План запроса для всех четырех запросов оказался одинаковым:

 |--Hash Match(Right Semi Join, HASH:([Document].[document_type_id])=([DocumentType].[Id]))
       |--Hash Match(Inner Join, HASH:([Document].[Title], [Uniq1005])=([Document].[Title], [Uniq1005]), RESIDUAL:([Document].[Title] as [Document].[Title] = [Document].[Title] as [Document].[Title] AND [Uniq1005] = [Uniq1005]))
       |    |--Index Seek(OBJECT:([Document].[IX_Document_3] AS [Document]), SEEK:([Document].[showon_id]=(1)) ORDERED FORWARD)
       |    |--Index Scan(OBJECT:([Document].[IX_Document_1] AS [Document]))
       |--Table Scan(OBJECT:([DocumentType] AS [DocumentType]))

Я не уверен, что означает каждая строка и элемент, но кажется, что с точки зрения производительности не имеет значения, как вы строите запрос для такого рода проблем ...

09.10.2008 17:50

Для лучшей производительности вы должны использовать:

SELECT DISTINCT dt.* 
FROM 
    DocumentType dt
    INNER JOIN Document d ON dt.id=d.document_type_id and d.showon_id = 42

Соединения очень эффективны при соединении нескольких таблиц, когда в качестве вложенного запроса в предложении Where потребуется выполнить отдельный выбор результатов, который отфильтрует результаты предложения From. Оператор соединения также более читабелен.

Я бы также поместил индекс на showon_id в дополнение к первичным ключам и отношениям внешнего ключа.

Мой ответ отличается от ответа wmasm только перемещением фильтра showon_id во внутреннее соединение. Для MS SQL 2k5, я думаю, интерпретатор достаточно умен, чтобы делать это автоматически, но вы всегда хотите работать с наименьшим возможным набором результатов. Добавление ваших фильтров к внутренним операторам соединения может ограничить количество строк, с которыми должен работать запрос при объединении множества таблиц вместе. Если вы это сделаете, вы должны понимать, что это происходит для каждого сравнения строк, поэтому сложные фильтры (такие как x = '% a' или вызовы функций) лучше оставить для предложения Where, чтобы внутренние объединения могли отфильтровать ненужные сравнения .

09.10.2008 22:20

Другие вопросы по теме

В многоуровневом дизайне с отдельным уровнем DataAccess в .NET, где следует управлять строкой подключения?

Инструмент для создания сценариев табличных данных

Какие методы наиболее эффективны для работы с миллионами записей?

Несколько языков в одной базе данных - SQL Server 2005

Проблема с открытием Berkeley db в Python

ORA-01438: значение, превышающее указанную точность, допускает этот столбец

Быстрый и грязный способ сравнить производительность SQL-сервера

Что означает «выбрать счетчик (1) из имя_таблицы» в любых таблицах базы данных?

Зашифрованный запрос к базе данных

Однострочные подзапросы в Oracle - каков план объединения?

Производительность SQL Server 2005: отчетливая или полная таблица в инструкции WHERE IN

Ответы 5

Другие вопросы по теме

Похожие вопросы