Как найти максимальное значение в столбце в фрейме данных pyspark

У меня есть фрейм данных pyspark

deviceId    timestamp
009eeb      2024-04-22
009eeb      2024-04-24
7c002v      2024-04-20
7c002v      null
4fd556      null
4fd556      null

Мне нужно получить максимальную временную метку в конечном кадре данных и удалить дубликаты. Я попробовал использовать приведенный ниже код

w = Window.partitionBy('deviceId')
df_max = df.withColumn('max_col', F.max('timestamp').over(w))\
            .where((F.col('timestamp') == F.col('max_col')) | (F.col('timestamp').isNull()))            
            .dropDuplicates()

Но из этого кода я получаю то, что мне нужно.

deviceId    timestamp
009eeb      2024-04-24
7c002v      null
4fd556      null
4fd556      null

Мне нужно получить результат, как показано ниже

deviceId    timestamp
009eeb      2024-04-24
7c002v      2024-04-20
4fd556      null

Пожалуйста, предложите внести какие-либо изменения

python apache-spark pyspark

29.04.2024 08:39

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Просто используйте функцию max напрямую.

from pyspark.sql import SparkSession, functions as F

spark = SparkSession.builder.enableHiveSupport().getOrCreate()

data = [
    ('009eeb', '2024-04-22'),
    ('009eeb', '2024-04-24'),
    ('7c002v', '2024-04-20'),
    ('7c002v', None),
    ('4fd556', None),
    ('4fd556', None),
]
df = spark.createDataFrame(data, ['deviceId', 'timestamp'])
df = df.groupBy('deviceId').agg(F.max('timestamp').alias('timestamp'))
df.show(truncate=False)

# +--------+----------+
# |deviceId|timestamp |
# +--------+----------+
# |009eeb  |2024-04-24|
# |4fd556  |null      |
# |7c002v  |2024-04-20|
# +--------+----------+

Это не работает. Можете ли вы показать на примере

— 29.04.2024 10:40

О какой ошибке вы там сообщили? Полный фрагмент программы аналогичен приведенному выше.

— 29.04.2024 10:52

29.04.2024 09:03