Я пытался автоматически пометить InfoTypes, такие как PhoneNumber, EmailId, для данных в GCS Bucket и внешних таблицах Big Query, используя инструмент предотвращения потери данных в GCP, чтобы я мог иметь эти теги в каталоге данных, а затем в Dataplex. Теперь проблемы в том, что
Вопрос в том, правильно ли я понимаю GCP DLP — интеграция каталога данных работает только для внутренних таблиц Big Query? Я делаю что-то не так, в документации GCP эти вещи тоже не упоминаются!
Кроме того, при настройке задания проверки из консоли пользовательского интерфейса DLP мне пришлось в обязательном порядке указать идентификатор таблицы Big Query. Есть ли способ запустить задание проверки DLP для набора данных BQ или группы таблиц?
Что касается Услуги по предотвращению потери данных в Облако Google, вы правильно поняли, данные не могут быть отфильтрованы путем копирования в службы за пределами периметра, например, в общедоступную корзину Облачное хранилище Google (GCS) или внешняя таблица BigQuery. Посетите этот URL-адрес для получения дополнительной информации.
Теперь о том, как запустить Проверка DLP для группы таблиц БК, есть 2 способа сделать это:
url =
String.format(
"jdbc:bigquery://https://www.googleapis.com/bigquery/v2:443;OAuthType=3;ProjectId=%s;",
projectId);
DataSource ds = new com.simba.googlebigquery.jdbc42.DataSource();
ds.setURL(url);
conn = ds.getConnection();
DatabaseMetaData databaseMetadata = conn.getMetaData();
ResultSet tablesResultSet =
databaseMetadata.getTables(conn.getCatalog(), null, "%", new String[]{"TABLE"});
while (tablesResultSet.next()) {
// Query your Table Data and call DLP Streaming API
}
Вот руководство для этого метода.
client = bigquery.Client()
datasets = list(client.list_datasets(project=project_id))
if datasets:
for dataset in datasets:
tables = client.list_tables(dataset.dataset_id)
for table in tables:
# Create Inspect Job for table.table_id
Используйте этот нить для дополнительной справки по запуску Задание DLP Inspection для группы таблиц BQ.