Spark отправляет LIMIT на SQL Server при функции отображения

Обновление: и моя версия, и версия Фреда Алиссона отлично работают на новом кластере. Это была проблема с моей стороны конфигурация диалекта.

Я пытался запросить SQL-сервер с помощью искры, но не могу заставить его отобразить полученный фрейм данных, поскольку искра отправляет на SQL-сервер буквальный «LIMIT», что приводит к SQLServerException.

Следующий запрос работает абсолютно нормально

df = spark.read.format('sqlserver') \
        .option('host', sql_server_host) \
        .option('port', sql_server_port) \
        .option('database', sql_server_database) \
        .option('user', sql_server_user) \
        .option('password', sql_server_password) \
        .option("dbtable", 'dbo.TestTable')
        .load()

но при беге

df.display() or display(df)

Я получаю следующую ошибку:

SQLServerException: неправильный синтаксис рядом с «10001».

При дальнейшей проверке я вижу, что искра отправляет следующий запрос на сервер sql, который явно терпит неудачу, поскольку SQL Server не поддерживает LIMIT.

SELECT TestColumn FROM dbo.TestTable LIMIT 10001 

Что-то не так с моей конфигурацией и есть ли обходной путь?

Запуск Spark 3.5.0 на блоках данных 14.3 LTS

user3657850 03.07.2024 16:54

не так ли: .format("com.microsoft.sqlserver.jdbc.spark")

siggemannen 03.07.2024 17:14

Не могли бы вы вместо этого использовать df.show()? По умолчанию этот метод отображает 20 строк. Также можно указать количество строк, которые вы хотите показать, используя df.show(100), или показать все строки, выполнив df.show(df.count()).

smurphy 03.07.2024 19:13

Похоже на ошибку в включенном драйвере SQL Server. Это все равно произойдет, если вы вместо этого используете spark.read.format("jdbc").option("driver", "jdbc:sqlserver://...")...?

AlwaysLearning 03.07.2024 22:52

@siggemannen, да, нет. Я работал над документацией databricks, где говорилось, что вы можете использовать .format("sqlserver") . Видимо, это более экспериментально, чем я ожидал.

user3657850 04.07.2024 09:41

@smurphy не работает, поскольку он все равно отправит это ограничение на сервер sql.

user3657850 04.07.2024 09:41

@user3657850 user3657850 Меня удивляет то, насколько плохи все эти искровые документы! Они очень редки, и большинство из них повторяют названия параметров/методов.

siggemannen 04.07.2024 09:46
Стоит ли изучать PHP в 2023-2024 годах?
Стоит ли изучать PHP в 2023-2024 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
2
7
81
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

По умолчанию Spark использует «LIMIT» (SQL Server — «TOP»). То, что вы можете попробовать:

1 – Чтение с использованием соединения JDBC

2. Укажите таблицу с помощью специального запроса.

Пример кода для первого варианта:

df = spark.read.format('jdbc') \
.option('url', f'jdbc:sqlserver://{sql_server_host}:{sql_server_port};databaseName = {sql_server_database}') \
.option('dbtable', 'dbo.TestTable') \
.option('user', sql_server_user) \
.option('password', sql_server_password) \
.option('driver', 'com.microsoft.sqlserver.jdbc.SQLServerDriver') \
.load()

Пример кода для второго варианта:

query = "(SELECT * FROM dbo.TestTable) AS TestTable"

df = spark.read.format('jdbc') \
.option('url', f'jdbc:sqlserver://{sql_server_host}:{sql_server_port};databaseName = {sql_server_database}') \
.option('query', query) \
.option('user', sql_server_user) \
.option('password', sql_server_password) \
.option('driver', 'com.microsoft.sqlserver.jdbc.SQLServerDriver') \
.load()

Попробуйте эти способы и дайте мне знать, если вам понадобится дополнительная помощь!

У меня такая же проблема при использовании этих опций...

user3657850 04.07.2024 10:49

Даже если вы используете явный запрос? Попробуйте использовать SELECT TOP 10000 * FROM your_table и отправьте сюда распечатку проблемы, чтобы я мог увидеть ошибку.

Fred Alisson 04.07.2024 13:56

Ага. Он будет добавлен к каждой команде, которая ограничивает вывод. show(), display(),... Но по мере того, как я изучал эту проблему, проблема как-то связана с пользовательским диалектом, который мы используем для преобразования TimestampType в datetime2 для сервера sql. В предыдущей версии LTS работало нормально, но в 14.3 почему-то не работает. Все еще изучаю это.

user3657850 05.07.2024 16:02

Другие вопросы по теме