На веб-сайте ApacheSpark говорится, что для построения диаграммы мне нужно сделать
df = ps.DataFrame(data, columns=list('ABCD'))
Точно так же для гистограммы мне нужно сделать
df = ps.from_pandas(df)
df.plot.hist(bins=12, alpha=0.5)
Но когда я набираю ps
, он возвращает ошибку. Итак, что такое ps
?
Это ps
краткая форма ваших панд, которые у нас есть в pyspark, она преобразует данные в фрейм данных панд.
вы можете импортировать его так
import pyspark.pandas as ps
и вот вариант использования этого
>>> import pyspark.pandas as ps
>>>
>>> psdf = ps.range(10)
>>> pdf = psdf.to_pandas()
>>> pdf.values
array([[0],
[1],
[2],
[3],
[4],
[5],
[6],
[7],
[8],
[9]])
далее вы можете посетить этот сайт для получения помощи https://spark.apache.org/docs/latest/api/python/user_guide/pandas_on_spark/pandas_pyspark.html