RedDeveloper
Блог
Вопросы
Теги
Топ 50 вопросов про Bigdata
Коллекция из 50 самых популярных вопросов про
bigdata
с ответами и комментариями.
Топ 50
Топ 15
Топ 20
Топ 25
Топ 30
Топ 100
Все вопросы
Вопросы на собеседовании
1
Какие методы мы можем использовать для изменения формы ОЧЕНЬ больших наборов данных?
2
Обновите singleton HashMap с помощью Google pub / sub
3
Озеро данных и большие данные - это одно и то же?
4
Есть ли более быстрый способ, чем fread(), для чтения больших данных?
5
Как подключиться к HDFS с помощью spark?
6
Лучший способ проверить, зависают ли задания потоковой передачи Spark
7
Функция ограничения Spark DataFrame требует слишком много времени для отображения
8
Архитектура потоковой обработки
9
Pyspark: как дублировать строку n раз в фрейме данных?
10
Динамический раздел Spark 2.3 Не работает на S3 AWS EMR 5.13.0
11
Объединение большого и массивного фрейма данных Spark
12
Что лучше между несколькими маленькими файлами h5 или одним огромным?
13
Загрузите огромные данные из BigQuery в python/pandas/dask
14
Хранение глубокого дерева каталогов в базе данных
15
Развертывание кодовой базы Airflow
16
Предотвращение случайного выбора GROUP BY в Spark SQL
17
Что такое память драйвера и память исполнителя в искре?
18
Как отслеживать изменение данных JSON с течением времени для большого количества сущностей?
19
Oracle PGX on Yarn - 404 на WebService
20
Объединить панд в группу по объектам
21
Имя столбца изменения таблицы изменения куста дает 'NULL' переименованному столбцу
22
Как вставить большие данные в ларавел?
23
Импорт файлов журнала с граничных узлов в Hadoop
24
Spark и Scala: исключение saveAsTextFile ()
25
Обогащение DataStream с помощью статического набора данных в потоковой передаче Flink
26
Вычесть все пары векторов
27
Разделить набор данных по строкам на файлы меньшего размера в R
28
Pig не работает в настроении mapreduce (hadoop 3.1.1 + pig 0.17.0)
29
Добавить несколько столбцов в существующий фрейм данных в искре
30
OraclePropertyGraphDataLoader загружает данные из HDFS
31
Можем ли мы использовать потоковую передачу Spark для событий, зависящих от времени
32
Как мне pd.merge без создания копии данных?
33
Выберите искру и добавьте столбцы с псевдонимом
34
Создание стола с ульем на основе паркетной пилки
35
Spark DataFrame не типизирован против DataFrame имеет схему?
36
Как лучше всего передавать данные из AWS SQS в S3?
37
Удаление файла из HDFS в обход корзины с использованием Java API
38
Как правильно сохранить каждый большой кусок данных в виде фрейма данных pandas и объединить их друг с другом
39
Как работать с хранилищами большого размера в Corda?
40
Разделите большой файл на маленькие файлы в R
41
Разделение действительно большого файла на файлы меньшего размера в Python - слишком много открытых файлов
42
В чем точная разница между локальным и автономным режимами Spark?
43
Jq streaming - фильтровать вложенный список и сохранять глобальную структуру
44
Изменил ли Spark 2.3 способ обработки небольших файлов?
45
В чем разница между spark.shuffle.partition и spark.repartition в spark?
46
Как сделать python для циклов быстрее
47
Методы преобразования полиморфных данных/озеро данных/большие данные
48
Как удалить повторяющиеся записи в большом массиве (javascript)
49
Мне нужно пропустить три строки из фрейма данных при загрузке из файла CSV в scala
50
В чем разница между водяным знаком и триггером во Flink?