Как сохранить возвращаемые значения функции UDF в два столбца?

Моя функция get_data возвращает кортеж: два целых значения.

get_data_udf = udf(lambda id: get_data(spark, id), (IntegerType(), IntegerType()))

Мне нужно разделить их на две колонки val1 и val2. Как я могу это сделать?

dfnew = df \
    .withColumn("val", get_data_udf(col("id")))

Следует ли мне сохранить кортеж в столбце, например val, а потом как-то разбить на две колонки. Или есть более короткий путь?

см. также stackoverflow.com/a/40962714/1138523

Raphael Roth 09.09.2018 21:47

в scala вы можете использовать .withColumn("val1", col("val._1")).withColumn("val2", col("val._2")), не уверен, работает ли это в pyspark

Raphael Roth 09.09.2018 22:04
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
1
2
531
3
Перейти к ответу Данный вопрос помечен как решенный

Ответы 3

Кортежи могут быть проиндексированы так же, как списки, поэтому вы можете добавить значение для первого столбца как get_data()[0], а для второго значения во втором столбце вы сделаете get_data()[1]

также вы можете выполнить v1, v2 = get_data() и таким образом присвоить возвращаемые значения кортежа переменным v1 и v2.

Взгляните на вопрос это здесь для дальнейших разъяснений.

Если я сделаю withColumn("val1", get_data_udf(col("id"))[0]).withColumn("val2", get_data_udf(col("id"))[1]), то дважды позвоню в get_data_udf. Разве это не так?

Markus 09.09.2018 18:33

Кроме того, как я могу запустить v1, v2 = get_data(), если я запускаю эту функцию по строкам в DataFrame?

Markus 09.09.2018 18:34

поместите первый в цикл и добавляйте v1 и v2 к вашему df строка за строкой - вот как это может работать!

Cut7er 09.09.2018 18:35

Не могли бы вы добавить какой-нибудь пример? Но в распределенном программировании циклы обычно не используются. Может я неправильно понял твою идею. Поэтому пример будет вам полезен.

Markus 09.09.2018 18:38

@Markus: Если вы не хотите запускать udf дважды, вам нужно временно сохранить результат в отдельном столбце.

Shaido 10.09.2018 07:22

Например, у вас есть образец фрейма данных из одного столбца, как показано ниже.

val df = sc.parallelize(Seq(3)).toDF()
df.show()

// Ниже UDF, который вернет кортеж

def tupleFunction(): (Int,Int) = (1,2)

// мы создадим два новых столбца из вышеуказанного UDF

df.withColumn("newCol",typedLit(tupleFunction.toString.replace("(","").replace(")","")
.split(","))).select((0 to 1)
.map(i => col("newCol").getItem(i).alias(s"newColFromTuple$i")):_*).show

Это Scala, не так ли? Мне понадобится Python.

Markus 10.09.2018 09:49

это правильно. Отличается только функция тюля. Кроме того, фактический код - это spark api. Он должен работать

Chandan Ray 10.09.2018 09:51
Ответ принят как подходящий

Вы можете создать structFields в udf, чтобы получить доступ позже.

from pyspark.sql.types import *

get_data_udf = udf(lambda id: get_data(spark, id), 
      StructType([StructField('first', IntegerType()), StructField('second', IntegerType())]))
dfnew = df \
    .withColumn("val", get_data_udf(col("id"))) \
    .select('*', 'val.`first`'.alias('first'), 'val.`second`'.alias('second'))

В чем смысл .select('*'?

Markus 10.09.2018 09:54

это означает все столбцы.

hamza tuna 10.09.2018 09:55

Ах хорошо. Надо drop("val") делать, да?

Markus 10.09.2018 10:11

Не уверен в этом.

hamza tuna 10.09.2018 10:20

Другие вопросы по теме