У меня проблемы с оконными функциями. Я не смог найти ни одного примера, который бы охватывал сценарии, в которых порядок имеет значение. Что я хочу сделать, так это ранжировать ColumnA, принимая во внимание SortOrder (и их первое появление). Таким образом, все B получат значение 1, A 2 и C 3. Могу ли я добиться этого с помощью функции ранжирования? Я не могу просто упорядочить по этим двум столбцам.
example = example.withColumn("rank", F.rank().over(Window.orderBy('ColumnA')))
Этот тоже не подойдет, так как потеряется заказ.
from pyspark.sql.types import StructType, StructField, StringType, IntegerType
import pyspark.sql.functions as F
from pyspark.sql.window import Window
data = [("B", "BA", 1),
("B", "BB", 2),
("B", "BC", 3),
("A", "AA", 4),
("A", "AB", 5),
("C", "CA", 6),
("A", "AC", 7)]
cols = ['ColumnA', 'ColumnB', 'SortOrder']
schema = StructType([StructField('ColumnA', StringType(), True),
StructField('ColumnB', StringType(), True),
StructField('SortOrder', IntegerType(), True)])
rdd = sc.parallelize(data)
example = spark.createDataFrame(rdd, schema)
?
example = example.withColumn("rank", F.rank().over(Window.orderBy('SortOrder', 'ColumnA')))
Получите минимальный SortOrder для каждого значения ColumnA, затем получите ранг и присоедините его обратно к исходному фрейму данных.
example2 = example.join(
example.groupBy('ColumnA')
.min('SortOrder')
.select('ColumnA',
F.rank().over(Window.orderBy('min(SortOrder)')).alias('rank')
),
on = 'ColumnA'
).orderBy('SortOrder')
example2.show()
+-------+-------+---------+----+
|ColumnA|ColumnB|SortOrder|rank|
+-------+-------+---------+----+
| B| BA| 1| 1|
| B| BB| 2| 1|
| B| BC| 3| 1|
| A| AA| 4| 2|
| A| AB| 5| 2|
| C| CA| 6| 3|
| A| AC| 7| 2|
+-------+-------+---------+----+