В PySpark у меня есть фрейм данных, в котором есть столбец «Дата», который находится в «Дата и время» для каждой строки в таблице.
Я хотел бы запросить все строки в фрейме данных, которые произошли в предыдущий день (т.е. накануне, когда я выполняю запрос).
Я вижу этот документ https://www.datasciencemadesimple.com/subtract-or-add-days-months-and-years-to-timestamp-in-pyspark/, в котором рассказывается о том, как создать столбец во фрейме данных. который вычитает день из значений в столбце.
Но теперь я ищу, чтобы вычесть день из текущей даты и использовать это в фильтре.
Комментарий @Kashyap говорит сам за себя, но вот пример:
from pyspark.sql.functions import col
from datetime import date, timedelta
yesterday = date.today() - timedelta(1)
df.filter(col("Date") == yesterday).show()
Если ваш столбец Date на самом деле содержит дату и время, вы можете усечь дату и время, чтобы сначала преобразовать их в даты.
from pyspark.sql.functions import col, date_trunc
from datetime import date, timedelta
yesterday = date.today() - timedelta(1)
df.filter(date_trunc("day", col("Date")) == yesterday).show()
Date_trunc будет хорошо работать только со столбцами меток времени, а не со строками.
Убедитесь, что вы заменили df своим именем DataFrame.
Но в таблице «Дата» есть Date And Time , поэтому я не могу просто сделать col («Дата») == вчера
Просто поместите название столбца вместо col("Date") лайка col("Date and Time")
@ n179911a Я включил, как это сделать для даты и времени, в свое последнее редактирование.
Вы ищете, как создать предложение where. Ничего общего с pyspark. Получите текущую дату, вычтите один день, используйте его в предложении where.