Использование паркета смешанных форматов и json с aws athena

У меня есть события, закодированные в JSON. Каждое событие имеет вложенный в структуру объекта числовой идентификатор, который указывает тип события.

Я хотел бы хранить свои события в S3, используя паркет со схемой из двух столбцов, типом события и необработанным JSON. Таким образом, всякий раз, когда мне нужно сделать запрос, который использует только определенные типы событий, мне не нужно читать каждое отдельное событие, чтобы узнать, каков его тип.

Чтобы быть ясным, я хочу использовать паркет, чтобы Афина могла быстро получить события, которые меня волнуют, прочитав первый столбец, а затем выполнить запрос, используя содержимое второго столбца, необработанные события JSON.

Это возможно? Как? Если нет, какие-либо предложения относительно того, как я могу сэкономить ресурсы, обращаясь только к событиям, которые я хочу включить в свой запрос?

1
0
312
1

Ответы 1

Что вам нужно, так это организовать корзину в S3 по типу события и использовать ее с помощью многораздельной таблицы, определенной в Athena. Подробнее о разметке athena здесь.

Другие вопросы по теме