Я пытаюсь выяснить, можно ли экспортировать эскизы гиперлога из большого запроса и объединить их снаружи для оценки мощности. Доступна ли библиотека с открытым исходным кодом, которая может легко анализировать большие наброски запросов?
Если нет, существует ли какая-либо общедоступная информация о формате скетчей гиперлогов запроса biq? В частности, какой алгоритм хеширования используется, какой тип метаданных содержится и как структурированы эскизы?
Подробности формата скетча и хеширования для семейства функций HLL_COUNT в настоящее время не являются общедоступными.
Не могли бы вы подать запрос функции на система отслеживания проблем с более подробной информацией (например, с какими инструментами / языками / библиотеками вы бы предпочли взаимодействовать для оценки мощности)?
Просто для справки. В настоящее время есть два открытых тикета по этому вопросу: Issuesetracker.google.com/issues/117087375 и Issuesetracker.google.com/issues/123269269.
Текущий статус таков: создание новых скетчей BigQuery-HLL ++ в Apache Beam находится в стадии разработки: issues.apache.org/jira/browse/BEAM-7013
Теперь вы можете добиться этого с помощью ZetaSketch (https://github.com/google/zetasketch), который включает реализацию алгоритма HLL ++, совместимую с реализацией Google Cloud BigQuery.
Всем, кто не знаком с эскизами HYPERLOGLOG, следует прочитать этот cloud.google.com/bigquery/docs/reference/standard-sql/…