Я видел архитектуру гибридного кластера HADOOP с некоторыми узлами в помещении и некоторыми другими в облаке. Так как данные будут перемещаться между обеими системами, будет ли такая архитектура убийцей задержки?
Тот же вопрос для полного облачного кластера hadoop, поскольку узлы географически не находятся в одном и том же месте, повлияет ли это на производительность / задержку?
заранее спасибо
на самом деле это не было решение для зеркалирования, это было больше связано с наличием узлов данных как из облака, так и из локальной среды под одним и тем же пространством имен узлов
Обычно в облаке нет узлов данных. Вы должны использовать соответствующее хранилище объектов этого поставщика. Например, S3 и хранилище BLOB-объектов Azure. Но это, конечно, добавляет задержку как хранилище объектов, а не хранилище блоков.
Собственно, это было мое первое замечание, отсюда и мой вопрос о stackoverflow. их архитектура следующая: 4 узла данных в помещении и 12 узлов в облаке с одной стойкой hadoop по умолчанию.
Обычно вы настраиваете федерацию HDFS для чего-то вроде этого или, по крайней мере, устанавливаете свойства стойки по-другому для другого центра обработки данных. Я слышал о настройках, например, о том, что одна реплика является локальной, а две - удаленной, но я не знаю, можно ли это гарантировать. Между тем, другие архитектуры полностью отказываются от Hadoop, потому что их модель данных известна заранее, поэтому она хранится в Cassandra, которая имеет хорошую поддержку нескольких регионов.
Да, я согласен с тем, что вы говорите (федерация HDFS и стратегия стойки).
Обычно вы не зеркалируете целые наборы данных. Только части, относящиеся к этим регионам / поставщикам. Например, запуск BigQuery vs Athena