RedDeveloper
Блог
Вопросы
Теги
Вопросы на собеседовании Bigdata
Изучите нашу коллекцию (Топ-100) часто задаваемых вопросов по теме
bigdata
при собеседовании на работу и будьте во всеоружии.
Вопросы на собеседовании
Топ 15
Топ 20
Топ 25
Топ 30
Топ 50
Топ 100
Все вопросы
1
Лучший способ проверить, зависают ли задания потоковой передачи Spark
2
Загрузите огромные данные из BigQuery в python/pandas/dask
3
PERL: переход к строкам в огромном текстовом файле
4
Как сделать python для циклов быстрее
5
Как прочитать небольшой процент строк очень большого CSV. Панды — временные ряды — большой набор данных
6
Можно ли использовать Sqoop для выполнения соединений при ИМПОРТ?
7
Как разбирать очень большие файлы в Python?
8
Проверить, есть ли значение в кортеже фрейма данных
9
Как вставить большие данные в ларавел?
10
Оптимизация преобразования Pandas DataFrame для связывания двух столбцов
11
Вычесть все пары векторов
12
Самый быстрый способ в numpy получить расстояние произведения n пар в массиве
13
Лучший способ удалить разделы с помощью Presto + Hive
14
Как удалить повторяющиеся записи в большом массиве (javascript)
15
Мне нужно пропустить три строки из фрейма данных при загрузке из файла CSV в scala
16
Проблема с датой литья улья
17
Вставить столбец метки времени в столбец scandate?
18
Разделить RDD[строка] на RDD[кортежи]
19
Как векторизовать работу панд для повышения скорости?
20
Обработка миллионов строк в Python
21
Как создать Spark SQL Dataframe со списком объектов Map
22
Hive: найдите лучшие 20 процентов записей
23
Функция ограничения Spark DataFrame требует слишком много времени для отображения
24
Порядок улья по невидимому столбцу
25
Сравнение Big Data и Data Lakes, различия и сходства
26
Регистрировать или декодировать в нескольких строках
27
Hadoop Hive MAX дает несколько результатов
28
PHP: чтение и экспорт больших данных без изменения memory_limit и max_execution_time
29
Можно ли использовать PROC FORMAT для суммирования внутри групп по множеству столбцов?
30
Apache Cassandra Чтение объяснения
31
Spark - условные операторы внутри select
32
Как вставить данные из файла CSV в Hive?
33
Как найти подобную закономерность вместе с отсутствующими объектами в больших данных?
34
Озеро данных и большие данные - это одно и то же?
35
Какое максимальное количество символов в имени таблицы улья?
36
Как преобразовать все столбцы DataFrame (с вложенными типами структуры) в строку в Spark
37
Как добавить значения в пары ключ-значение, созданные в scala
38
Как создать в Spark конвейер функций, которые нужно применить к набору данных?
39
Среда / IDE C++, чтобы избежать многократного чтения больших наборов данных
40
Pyspark: как дублировать строку n раз в фрейме данных?
41
Не удалось создать задание рабочего процесса из-за недостаточных разрешений в потоке данных
42
Подходит ли k-means ++ для больших данных?
43
Сбой многопоточности с openMP
44
Jq streaming - фильтровать вложенный список и сохранять глобальную структуру
45
Усреднение очень длинного списка [Double] Без бесконечности в Scala
46
Форматы структуры/файла БД для сохранения таблицы размером 100 ТБ и поддержки эффективного пропуска данных с помощью предикатов в Spark SQL
47
Искрить несколько итераций DF в строках
48
Переработка таблицы с данными и датами в столбцах на данные и даты в строках
49
Более быстрые в вычислительном отношении альтернативы для вычисления новой переменной на основе нескольких столбцов из двух больших фреймов данных в R
50
Оптимизация: разбиение столбца на тысячу столбцов в R или SQLite
51
Как проверить разницу Spark DataFrame?
52
Проверка большого списка перестановок. Есть ли совет, как заставить его работать быстрее?
53
Создание длинного списка маскирования (Python)
54
Spark: создание кадра данных сложного типа с одним столбцом
55
Методы преобразования полиморфных данных/озеро данных/большие данные
56
SQL: индекс FULLTEXT для скорости
57
Как получить тип полей записи StreamSets внутри Jython Evaluator
58
Как я могу создать большой файл со случайными, но осмысленными английскими словами?
59
Разделить набор данных по строкам на файлы меньшего размера в R
60
Использовать udf в методе sql vs в коде С# в производительности
61
Как использовать numpy для больших наборов данных
62
Добавьте несколько строк вверху таблицы улья
63
Spark 2.4.1 не может прочитать файл Avro из HDFS
64
Есть ли более быстрый способ, чем fread(), для чтения больших данных?
65
Расхождения между количеством уникальных пользователей на портале Google Analytics и результатом, который я получаю от BigQuery. Что-то не так с запросом?
66
Расчет новых столбцов в PowerBI
67
Программа потоковой передачи Amazon EMR MapReduce завершена из-за ошибок
68
Как оптимизировать google-bigquery для поиска наиболее частых категорий из таблицы больших данных?
69
Добавить несколько столбцов в существующий фрейм данных в искре
70
Как загрузить несколько CSV-файлов с перемешанными столбцами?
71
Как подключиться к внешнему ip облачной платформы google из локального браузера
72
В чем разница между водяным знаком и триггером во Flink?
73
Более эффективный способ извлечения и вычитания строк R в разных кадрах данных
74
Пример Spark вызывает исключение FileNotFoundException в клиентском режиме
75
Суммирование всех сумм по датам в отношении физических лиц
76
Установить Hadoop в openstack
77
Как вы можете быстрее манипулировать большими файлами в python?
78
Как преобразовать вывод из readLines в фрейм данных
79
Как лучше всего хранить предварительно обработанные данные в конвейере машинного обучения?
80
Большие данные Hadoop HDFS — команда put
81
Spark: Будет ли фрейм данных, перераспределенный на один узел, перетасовываться, когда на нем вызывается groupBy?
82
Лучший способ хранить большие данные и делать из них отчеты. MongoDb против эластичного поиска
83
Как выполнять большие вычисления в Spark
84
Zip-функция с 3 параметрами
85
Оптимизация SQL-запросов Spark
86
Predicate Push Down против фильтров Блума
87
Дублирующиеся строки mysql удаляются в больших данных
88
Обучение персептрона из потока с ограниченной памятью
89
Пользовательские динамические разделы в MapReduce
90
Каковы некоторые стратегии эффективного хранения большого количества данных (миллионов строк) в Postgres?
91
OraclePropertyGraphDataLoader загружает данные из HDFS
92
Что произойдет, если я выделю все доступные ядра на сервере для искрового кластера
93
Flink 1.7.1 не может аутентифицировать s3a с помощью core-site.xml
94
Как можно использовать данные о транзакции, когда продукт был удален
95
Какой способ встраивания предложений в распределенную систему Spark был бы наиболее эффективным?
96
Py4JJavaError: ошибка при вызове o37.showString. Спарк и анаконда3
97
Как я могу выполнить команду S3-dist-cp в приложении spark-submit
98
Отображение файла только для чтения в памяти и отслеживание изменений с помощью WRITE_WATCHES не работает
99
Какие TPS может обрабатывать Dynamodb?
100
Как вывести результаты запроса HiveQL в CSV с помощью сценария оболочки?