Чтение данных из GCS с помощью BigQuery завершается с ошибкой «Не найдено», но дата (файлы) существует

У меня есть служба, которая постоянно обновляет файлы в корзине GCS с форматом куста:

bucket
    device_id=aaaa
        month=01
            part-0.parquet
        month=02
            part-0.parquet
        ....
    device_id=bbbb
        month=01
            part-0.parquet
        month=02
            part-0.parquet
        ....

Если сегодня мы находимся в month=02, и я выполнил следующее с BigQuery:

SELECT DISTINCT event_id
FROM `project_id.dataset.table` 
WHERE month = '02';

Я получаю сообщение об ошибке: Not found: Files /bigstore/bucket_name/device_id=aaaa/month=02/part-0.parquet

Я проверил, и файл был там, когда запрос выполнялся.

Если я побегу

SELECT DISTINCT event_id
FROM `project_id.dataset.table` 
WHERE month = '01';

Я получаю результаты без каких-либо ошибок. Я предполагаю, что ошибка связана с тем, что я изменяю данные при запросе. Но как я понял с GCS такого быть не должно, это из их документации.

Because uploads are strongly consistent, you will never receive a 404 Not Found response or stale data for a read-after-write or read-after-metadata-update operation.

Я видел несколько сообщений о том, что это может быть связано с моим ведром Multi-region.

Любые другие идеи?

Вам помог мой ответ?

Raul Saucedo 05.04.2022 16:00

Да, я все еще тестирую способ обойти это, пока безуспешно

shlomiLan 05.04.2022 17:08
Стоит ли изучать PHP в 2023-2024 годах?
Стоит ли изучать PHP в 2023-2024 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
1
2
84
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Возможно, по какой-то причине вы получаете эту ошибку.

  • Когда вы загружаете данные из Cloud Storage в таблицу BigQuery, набор данных, содержащий таблицу, должен находиться в том же региональном или многорегиональный место нахождения в качестве корзины Cloud Storage.
  • Из-за последовательность для корзин, в то время как обновления метаданных сильно согласованы для операций чтения после обновления метаданных, процесс может потребоваться время, чтобы закончить изменения.
  • Использование корзины Мультирегион не рекомендуется.

В этом случае это может быть связано с согласованностью, потому что, когда вы обновляете файлы GCS, вы одновременно выполняете запрос, поэтому при выполнении запроса файл паркета был доступен для чтения, и вы не получили ошибку , но в следующий раз файл паркета был недоступен, потому что служба обновляла файл, и вы получили ошибку.

К сожалению, нет простого способа решить эту проблему, но вот несколько вариантов:

  • Вы можете добавить процедуру публикации/подписки в корзину и/или файл и быстро отключить ее. ваш запрос после того, как служба завершила обновление файлов.
  • Создайте рабочий процесс, который блокирует обновление файлов в их ведра, пока их запрос не завершится.
  • Если запрос завершается с ошибкой «не найден» для файла ABCD, и у вас есть подтвердите, что ABCD существует в GCS, затем повторите запрос X раз.
  • Вам нужно сделать резервную копию ваших данных в другом месте, где вы не будете обновляйте эти файлы постоянно, всего раз в день.
  • Вы можете переместить данные в управляемое хранилище, где у вас не будет эта проблема, потому что вы можете делать снимки.

Другие вопросы по теме