Как создать dataframe с помощью pyspark dataframe, как я это делаю с помощью pandas?

У меня есть два списка, как показано ниже:

enter image description here

Я хочу объединить эти списки в такой DataFrame, как показано ниже:

enter image description here

Как я могу это сделать?

Я бы не назвал это «слиянием»

OneCricketeer 26.10.2018 04:58

Почему вы не можете сделать это в Pandas, а затем использовать Pyspark для загрузки фрейма данных pandas?

OneCricketeer 26.10.2018 04:59

Спасибо за ваш ответ. Причина, по которой я не хотел бы использовать панды, заключается в том, что панды слишком тяжелы, чтобы применять их к большим данным. В любом случае, я хотел бы создать (не объединять, извините) DataFrame, как то, что я опубликовал ранее.

K.Tomita 26.10.2018 09:03

Непонятно, насколько велики ваши данные ... Pandas отлично справляется с обработкой гигабайт данных на одной машине. Если вы действительно хотите иметь распределенные Pandas, я бы посоветовал Dask, а не Spark. В любом случае непонятно, что вы пробовали, чтобы получить желаемый результат.

OneCricketeer 26.10.2018 15:18

Ну, я попытался создать DataFrame с помощью "" "pd.DataFrame (columns = pd.concat ([od_all, df_female_od]), index = ‌ range (len (df_female_‌ st))). Set_index (df_f‌ emale_st ) .replace (np‌ .nan, 1) "" ", и я не мог сделать это с помощью искры. Как я могу это сделать с помощью Даска? Я полагаю, что Dask создает агрегацию массивов, которые я не могу создать DataFrame, как указано выше.

K.Tomita 01.11.2018 05:53
0
5
41
0

Другие вопросы по теме