Напишите ETL в потоке данных

Привет, я хочу преобразовать логику преобразования в поток данных для некоторой цели анализа. Ниже приведен запрос, который я хочу преобразовать в задание потока данных.

select max(trans.TRANSACTIONS_ID) TRANSACTION_ID
, trans.ACCOUNT_ID ACCOUNT_ID
, max(dim.ACCOUNT_NAME) ACCOUNT_NAME 
, max(trans.DATE_ID) DATE_ID
, max(trans.CR_DR_INDICATOR) CR_DR_INDICATOR
, max(trans.TRANS_CODE) TRANS_CODE
, SUM(trans.AMOUNT) AMOUNT
, max(trans.BALANCE) BALANCE
, max(trans.TRANSACTION_TYPE) TRANSACTION_TYPE
, max(trans.BANK) BANK
, max(trans.ACCOUNT) ACCOUNT 
from `xxxxxxx.costing_uscase.TRANSACTIONS_MASTER_DATAFLOW_TEST`  trans, `xxxxxxxxxxx.costing_uscase.ACCOUNTS_MASTER_DATAFLOW_TEST_2` dim
where dim.ACCOUNT_ID = trans.ACCOUNT_ID
group by trans.ACCOUNT_ID;

Я использовал BigQueryTableIO.read для чтения из двух таблиц и CoGroupBy, но немного запутался в том, как выполнять агрегирование по повторяющейся строке таблицы.

Почему вы хотите читать из BigQuery и выполнять агрегирование в потоке данных, а не просто делать это непосредственно в BigQuery (что НАМНОГО быстрее)?

— 27.09.2018 14:42

Да, Грэм согласился. Просто для того, чтобы поделиться с клиентом некоторым анализом.

— 27.09.2018 19:21

google-cloud-platform google-bigquery google-cloud-dataflow

26.09.2018 18:53