Поддерживает ли GCP Data Loss Prevention публикацию результатов в каталоге данных для внешних таблиц больших запросов?

Я пытался автоматически пометить InfoTypes, такие как PhoneNumber, EmailId, для данных в GCS Bucket и внешних таблицах Big Query, используя инструмент предотвращения потери данных в GCP, чтобы я мог иметь эти теги в каталоге данных, а затем в Dataplex. Теперь проблемы в том, что

  1. Если я выбираю какие-либо источники, кроме таблицы Big Query (GCS, хранилище данных и т. д.), параметр публикации результатов проверки GCP DLP в каталоге данных отключается.
  2. Если я выбираю таблицу Big Query, опция публикации каталога данных включается, но когда я пытаюсь запустить задание проверки, выдается сообщение об ошибке: «Внешние таблицы не поддерживаются для проверки». Удивительно, но он поддерживает только внутренние большие таблицы запросов.

Вопрос в том, правильно ли я понимаю GCP DLP — интеграция каталога данных работает только для внутренних таблиц Big Query? Я делаю что-то не так, в документации GCP эти вещи тоже не упоминаются!

Кроме того, при настройке задания проверки из консоли пользовательского интерфейса DLP мне пришлось в обязательном порядке указать идентификатор таблицы Big Query. Есть ли способ запустить задание проверки DLP для набора данных BQ или группы таблиц?

Создание приборной панели для анализа данных на GCP - часть I
Создание приборной панели для анализа данных на GCP - часть I
Недавно я столкнулся с интересной бизнес-задачей - визуализацией сбоев в цепочке поставок лекарств, которую могут просматривать врачи и...
1
0
37
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Что касается Услуги по предотвращению потери данных в Облако Google, вы правильно поняли, данные не могут быть отфильтрованы путем копирования в службы за пределами периметра, например, в общедоступную корзину Облачное хранилище Google (GCS) или внешняя таблица BigQuery. Посетите этот URL-адрес для получения дополнительной информации.

Теперь о том, как запустить Проверка DLP для группы таблиц БК, есть 2 способа сделать это:

  • Программно извлеките Таблицы больших запросов, запросите таблицу и вызовите API потокового контента DLP. Он работает в режиме реального времени, но стоит дорого. Здесь я делюсь концепцией в примере кода Java:
url =
    String.format(
        "jdbc:bigquery://https://www.googleapis.com/bigquery/v2:443;OAuthType=3;ProjectId=%s;",
        projectId);
DataSource ds = new com.simba.googlebigquery.jdbc42.DataSource();
ds.setURL(url);
conn = ds.getConnection();
DatabaseMetaData databaseMetadata = conn.getMetaData();
ResultSet tablesResultSet =
    databaseMetadata.getTables(conn.getCatalog(), null, "%", new String[]{"TABLE"});
while (tablesResultSet.next()) {
// Query your Table Data and call DLP Streaming API
}

Вот руководство для этого метода.

  • Программно извлеките Таблицы больших запросов, а затем активируйте один Осмотреть работу для каждой таблицы. Это самый дешевый метод, но вы должны учитывать, что это пакетная операция, поэтому она не выполняется в режиме реального времени. Вот концепция в примере Python:
client = bigquery.Client()
datasets = list(client.list_datasets(project=project_id))
 
if datasets:
    for dataset in datasets:
        tables = client.list_tables(dataset.dataset_id)
        for table in tables:
            # Create Inspect Job for table.table_id

Используйте этот нить для дополнительной справки по запуску Задание DLP Inspection для группы таблиц BQ.

Другие вопросы по теме