Опыт работы с Hadoop?

Кто-нибудь из вас пробовал Hadoop? Можно ли использовать его без связанной с ним распределенной файловой системы в архитектуре без совместного использования ресурсов? Это имело бы смысл?

Меня также интересуют любые ваши результаты ...

какой аспект производительности hadoop вас интересует?

— 14.08.2011 15:44

performance distributed hadoop shared-nothing

20.08.2008 14:43

За пределами сигналов Angular: Сигналы и пользовательские стратегии рендеринга

TL;DR: Angular Signals может облегчить отслеживание всех выражений в представлении (Component или EmbeddedView) и планирование пользовательских...

Sniper-CSS, избегайте неиспользуемых стилей

Это краткое руководство, в котором я хочу поделиться тем, как я перешел от 212 кБ CSS к 32,1 кБ (сокращение кода на 84,91%), по-прежнему используя...

3 906

Перейти к ответу Данный вопрос помечен как решенный

Ответы 9

Ответ принят как подходящий

Да, вы можете использовать Hadoop в локальной файловой системе, используя URI файлов вместо URI hdfs в различных местах. Я думаю, что многие примеры, поставляемые с Hadoop, делают это.

Это, вероятно, нормально, если вы просто хотите узнать, как работает Hadoop и базовую парадигму сокращения карты, но вам понадобится несколько машин и распределенная файловая система, чтобы получить реальные преимущества масштабируемости, присущей архитектуре.

22.08.2008 20:29

Как сказал Джо, вы действительно можете использовать Hadoop без HDFS. Однако пропускная способность зависит от способности кластера выполнять вычисления рядом с местом хранения данных. Использование HDFS имеет 2 основных преимущества. IMHO 1) вычисления распределяются более равномерно по кластеру (уменьшая объем межузловой связи) и 2) кластер в целом более устойчив к сбоям из-за недоступности данных.

Если ваши данные уже разделены или тривиально разбиты на разделы, вы можете подумать о предоставлении своей собственной функции разделения для вашей задачи уменьшения карты.

12.09.2008 19:40

Лучший способ познакомиться с Hadoop - это загрузить его и начать изучать примеры включения. Используйте Linux / виртуальную машину, и ваша установка будет намного проще, чем Mac или Windows. Как только вы освоитесь с примерами и концепциями, начните смотреть, как ваше проблемное пространство может отображаться во фреймворке.

Несколько ресурсов, которые могут оказаться полезными для получения дополнительной информации о Hadoop:

Видео и презентации саммита Hadoop

Hadoop: Полное руководство: версия для грубых сокращений - это одна из немногих (единственных?) Книг, доступных на Hadoop на данный момент. Я бы сказал, что даже на данный момент это стоит затрат на электронную загрузку (книга готова на ~ 40%).

Hadoop: The Definitive Guide: Rough Cuts Version

26.09.2008 20:01

Hadoop MapReduce может работать поверх любого количества файловых систем или даже более абстрактных источников данных, таких как базы данных. Фактически существует пара встроенных классов для поддержки файловой системы, отличной от HDFS, таких как S3 и FTP. Вы также можете легко создать свой собственный формат ввода, расширив базовый InputFormat класс.

Однако использование HDFS дает определенные преимущества. Самым мощным преимуществом является то, что планировщик заданий MapReduce будет пытаться выполнять карты и сокращает количество операций на физических машинах, хранящих записи, требующие обработки. Это обеспечивает повышение производительности, поскольку данные можно загружать прямо с локального диска, а не передавать по сети, что в зависимости от соединения может быть на несколько порядков медленнее.

22.05.2009 02:40

Параллельные / распределенные вычисления = СКОРОСТЬ

С годами емкость дисковых хранилищ значительно увеличилась, но скорость чтения данных не соответствовала. Чем больше данных на одном диске, тем медленнее выполняется поиск.

Hadoop - это умный вариант подхода к решению проблем «разделяй и властвуй». По сути, вы разбиваете проблему на более мелкие части и назначаете эти части нескольким различным компьютерам для выполнения обработки параллельно с ускорить процесс, а не перегружаете одну машину. Каждая машина обрабатывает свой собственный набор данных, и в конце результат объединяется. Hadoop на одном узле не даст вам той скорости, которая имеет значение.

Чтобы увидеть преимущества hadoop, у вас должен быть кластер с как минимум 4-8 стандартными машинами (в зависимости от размера ваших данных) на одной стойке.

Вам больше не нужно быть супер-гениальным инженером по параллельным системам, чтобы воспользоваться преимуществами распределенных вычислений. Просто знайте, что Hive с Hive, и вам хорошо.

19.06.2012 01:58

да, hadoop можно очень хорошо использовать без HDFS. HDFS - это просто хранилище по умолчанию для Hadoop. Вы можете заменить HDFS любым другим хранилищем, например базами данных. HadoopDB - это расширение над Hadoop, в котором в качестве источника данных используются базы данных вместо HDFS. Погуглите, вы легко получите.

20.07.2012 11:03

Если вы только что намочили ноги, начните с загрузки CDH4 и запуска его. Вы можете легко установить на локальную виртуальную машину и запустить ее в «псевдораспределенном режиме», который точно имитирует ее работу в реальном кластере.

05.12.2012 01:32

Да, вы можете использовать локальную файловую систему с помощью file: // при указании входного файла и т. д., И это будет работать также с небольшими наборами данных, но фактическая мощность hadoop основана на распределенном механизме и механизме совместного использования. Но Hadoop используется для обработки огромного количества данных. Этот объем данных не может быть обработан на одной локальной машине, или даже если это произойдет, потребуется много времени, чтобы завершить работу. Поскольку ваш входной файл находится в общем месте (HDFS ) несколько картографов могут читать его одновременно, что сокращает время, необходимое для завершения работы. В двух словах, вы можете использовать его с локальной файловой системой, но для удовлетворения бизнес-требований вы должны использовать его с общей файловой системой.

28.12.2014 18:23

Отличные теоретические ответы выше.

Чтобы изменить файловую систему hadoop на локальную, вы можете изменить ее в файле конфигурации "core-site.xml", как показано ниже для hasoop версии 2.x.x.

 <property>
    <name>fs.defaultFS</name>
    <value>file:///</value>
  </property>

для версий hadoop 1.x.x.

 <property>
    <name>fs.default.name</name>
    <value>file:///</value>
  </property>

11.05.2015 10:47

Другие вопросы по теме

Как обеспечить синхронизацию двух связанных, но отдельных систем?

Uniswap использует SDK для получения исторических курсов (и текущего курса)

Может ли Sloppy Quorum гарантировать высокую согласованность чтения?

Распределенный запрос Clickhouse требует огромного количества ресурсов сети при использовании группы по

Проблемы взаимоотношений с распределенными базами данных микросервисов

Почему чтение и запись кворума с восстановлением чтения не линеаризуемы

Почему Paxos гарантирует достижение консенсуса и его неизменность?

Как Impala реализует расширение GroupBy (CUBE, ROLLUP и GROUPING SETS) распределенным способом?

Является ли высокая доступность системы такой же, как доступность в теореме CAP?

Можно ли изменить размер диска пула узлов в GKE с помощью terraform без повторного создания кластера?

Опыт работы с Hadoop?

Ответы 9

Другие вопросы по теме

Похожие вопросы