RedDeveloper
Блог
Вопросы
Теги
Топ 100 вопросов про Amazon Emr
Коллекция из 100 самых популярных вопросов про
amazon-emr
с ответами и комментариями.
Топ 100
Топ 15
Топ 20
Топ 25
Топ 30
Топ 50
Все вопросы
Вопросы на собеседовании
1
Ошибка pyspark не существует в ошибке jvm при инициализации SparkContext
2
Ограничения параллелизма AWS Athena: количество отправленных запросов VS количество запущенных запросов
3
Блокноты EMR устанавливают дополнительные библиотеки
4
Сохранение фрейма данных в локальной файловой системе приводит к пустым результатам
5
Не удается получить SparkContext в новом кластере AWS EMR
6
Как установить livy.server.session.timeout на ускорение кластера EMR?
7
Структурированная потоковая передача не будет записывать DF в приемник файлов, поскольку /_spark_metadata/9.compact не существует
8
Python pip install pyarrow error, невозможно выполнить cmake
9
Amazon emr jupyterhub и искровой кластер; в записной книжке нет автозаполнения
10
AWS EMR: параметр синтаксического анализа ошибки: ожидается: '=', получено: 'EOF' для ввода:
11
Как создать прокси-сервер для просмотра задания в пользовательском интерфейсе AWS Glue Spark?
12
Как автоматически завершить работу кластера AWS EMR через некоторое время
13
EMR conf настройки искры по умолчанию
14
В чем разница между EMR_EC2_DefaultRole и EMR_DefaultRole?
15
Проблема с каталогом данных AWS Glue в качестве хранилища метастазов для Spark SQL в EMR
16
Потоковая передача Amazon EMR и Spark
17
Как запустить 2 EMR Spark Step одновременно?
18
Могут ли задачи также выполняться на главном узле при запуске задания Spark в режиме кластера в EMR?
19
Учетные данные для доступа к EMR Jupyter Notebook
20
Чтение сжатого Zstandard файла в Spark 2.3.0
21
Динамический раздел Spark 2.3 Не работает на S3 AWS EMR 5.13.0
22
Aws: кластер EMR дает сбой «ОШИБКА UserData: ошибка при попытке получить данные пользователя» при отправке задания Spark
23
Отправка скрипта pyspark на удаленный сервер Spark?
24
Как отправить задания Spark в кластер EMR из Airflow?
25
AWS EMR 5.20 и поддержка версии Java
26
Плюсы и минусы Amazon SageMaker VS. Amazon EMR для развертывания моделей глубокого обучения на основе TensorFlow?
27
Aws - Как добавить несколько коннекторов postgresql в EMR через файл конфигурации
28
Как я могу использовать графические кадры с pyspark в AWS EMR?
29
Как получить доступ к общедоступной корзине S3 из другой учетной записи AWS?
30
Spark Streaming Kinesis на EMR выдает ошибку «Ошибка при сохранении блока в Spark»
31
Как перенастроить spark / hadoop для чтения файлов, начинающихся с "_" (подчеркивание)?
32
Каков правильный синтаксис для запуска сценария bash в качестве шага в EMR?
33
Python Connect to Hive на EMR
34
Как одновременно запускать задания Spark в одном кластере AWS EMR?
35
Странные ошибки импорта Python
36
От Google Cloud Bigtable до AWS EMR (HBase)
37
Время сеанса записной книжки EMR истекает в течение нескольких секунд (с использованием pyspark) на большом фрейме данных (pyspark)
38
Как читать большие zip-файлы в pyspark
39
Укажите минимальное количество сгенерированных файлов из вставки Hive
40
EMR 5.21, Spark 2.4 — зависимость Json4s нарушена
41
Как отслеживать Apache Flink в AWS EMR (ElasticMapReduce)?
42
Искра не удалась - время ожидания фьючерсов истекло
43
Поведение автоматического масштабирования EMR с несколькими правилами масштабирования на узлах задач
44
Как запустить задание Spark в EMR через Cloudformation
45
Org.apache.flink.client.program.ProgramInvocationException: не удалось получить результат выполнения
46
Пользовательское разделение Kinesis на S3
47
Попытка установить pandas для Pyspark, работающего на Amazon EMR
48
Не удалось открыть SSH-туннель к главному узлу EMR
49
Задание пакетной обработки (Spark) с таблицей поиска, которая слишком велика для размещения в памяти
50
Как убить контейнер YARN для проверки сценариев сбоя
51
Как добавить функции из пользовательских JAR-файлов в кластер EMR?
52
Воздушный поток Emr Dag прошел успешно, но кластер не запущен
53
Не могу применить pandas_udf в pyspark
54
Относительный путь в абсолютном исключении URI при доступе к DynamoDB через каталог данных Glue в PySpark, работающем на EMR
55
Запись S3 из Spark периодически завершается сбоем с кодом ошибки 404 NoSuchKey
56
Можно ли добавить дополнительные банки к основным/рабочим узлам ПОСЛЕ отправки искры во время выполнения?
57
Создание кластера EMR с использованием запуска dag Airflow. После выполнения задачи EMR будет прекращен
58
Apache Spark: как читать миллионы (5+ миллионов) небольших файлов (по 10 КБ каждый) из S3
59
Воздушный поток DAG EMR EmrCreateJobFlowOperator Ничего не делает
60
Как указать временную директорию Spark в другую файловую систему в EMR
61
Приложение Livy No YARN обнаруживается с тегом livy-batch-10-hg3po7kp за 120 секунд
62
Правильный способ перезапуска службы presto-server на EMR
63
Aws emr не может изменить python pyspark по умолчанию при загрузке
64
Использование Redshift JDBC Jar в отправке искры не позволяет искре подключаться к каталогу Glue
65
Pyspark - разделите большой текстовый файл на несколько файлов
66
Отправить задание pyspark с виртуальной средой с помощью livy в AWS EMR
67
RandomSplit pyspark Изменяет значения фрейма данных
68
Кластер ЭМИ как удалить
69
Диспетчеры задач Flink не запускаются, пока задание не будет отправлено в кластер YARN
70
Какое количество разделов в искре зависит от количества исполнителей и потоков?
71
Spark 2.3.1 AWS EMR не возвращает данные для некоторых столбцов, но работает в Athena / Presto и Spectrum
72
AWS CLI EMR получить идентификатор экземпляра главного узла и пометить его
73
Приложение Spark не может успешно работать в EMR с YARN
74
Приложение Spark внезапно УБИРАЕТСЯ в EMR через 1 час и истекает срок действия сеанса livy. В чем причина и решение?
75
Tensorflow сокрушает JVM на amazon EMR 5.16
76
AWS EMR не генерирует NameNode FsImage
77
Oozie fs действие против S3, не обновляющего ключи в МАНИФЕСТАХ (хранилище метаданных DynamoDB - emrfs не синхронизируется) для хранилища S3
78
Действие начальной загрузки AWS EMR как sudo
79
Интеграция Presto-Glue-EMR: presto-cli дает исключение NullPointerException
80
Повышение вычислительной производительности Spark ML ALS
81
Как устранить ошибку агрегирования журналов не завершено или не включено в журналах YARN
82
Чтение схемы Multilple json с помощью Spark
83
Spark - подключение к mysql через Zeppelin EMR
84
Как рассчитывается общий объем памяти YARN ResourceManager?
85
Установка Flink EMR
86
Ssh: подключиться к хосту ec2-xxxxxxxx.compute-1.amazonaws.com порт 22: в подключении отказано
87
PySpark: нет модуля с именем psycopg2._psycopg
88
Начальная загрузка EMR при установке модулей Python - действие начальной загрузки 1 вернуло ненулевой код возврата
89
Выполнение нескольких одинаковых заданий на отправку искры для пряжи
90
Сохранение, монтирование и совместное использование томов в EMR
91
Настройка Spark Thrift Server на AWS EMR для подключения JBDC / ODBC
92
Apache Sedona в версии EMR > 6.9.0: объект JavaPackage не может быть вызван
93
Оставить сеанс Hive открытым EMR
94
Почему Spark намного быстрее читает каталог по сравнению со списком путей к файлам?
95
Pyspark транслируется от Кафки к Худи
96
Amazon EMR против Amazon Redshift
97
Не может иметь столбцы типа карты в DataFrame, которые вызывают операции набора
98
Как предотвратить создание ведра, если его нет в искре на emr
99
Как убедиться, что все основные узлы EMR всегда содержат файл хранилища ключей?
100
Можно ли дождаться завершения работы кластера EMR?