Я пытаюсь установить PySpark в Google Colab, используя приведенный ниже код, но получаю следующую ошибку.
Этот код был успешно выполнен один раз. Но выдает эту ошибку после перезагрузки ноутбука. Я даже пытался запустить это из другой учетной записи Google, но снова та же ошибка.
(Также есть ли способ, которым нам не нужно устанавливать PySpark каждый раз после перезапуска ноутбука?)
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q http://apache.osuosl.org/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz
Эта следующая строка, кажется, вызывает проблему, поскольку она не находит загруженный файл.
!tar xvf spark-2.3.2-bin-hadoop2.7.tgz
Я также попробовал следующие две строки (вместо двух строк выше), предложенные где-то в блоге среднего размера. Но ничего лучше.
!wget -q http://mirror.its.dal.ca/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
!tar xvf spark-2.4.0-bin-hadoop2.7.tgz
!pip установить -q findspark
-------------------------------------------------------------------------------------------------------------------------------Есть идеи, как выйти из этой ошибки и установить PySpark на Colab?
Я запускаю pyspark в colab, просто используя
!pip установить pyspark
и это работает нормально.
Я рад, что это помогло :).
вы получаете эту ошибку, потому что искра-2.3.2-бин-hadoop2.7 заменен последней версией на официальном сайте и зеркалах.
Перейдите по любому из этих путей и получите последнюю версию
замените версию сборки искры, и все готово. все будет работать гладко.
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://www-us.apache.org/dist/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz
!tar xf /content/spark-2.4.3-bin-hadoop2.7.tgz
!pip install -q findspark
Дата: 09.06.2020
Шаг 1 : Установите pyspark в Google Colab
!pip install pyspark
Шаг 2 : Работа с pandas и spark Dataframe внутри сеанса spark
!pip install pyarrow
It facilitates communication between many components, for example, reading a parquet file with Python (pandas) and transforming to a Spark data frame, Falcon Data Visualization or Cassandra without worrying about conversion.
Шаг 3 : Создать сеанс Spark
from pyspark.sql import SparkSession
spark = SparkSession.builder.master('local').getOrCreate()
Готово ⭐
Я пытался установить таким же образом, но даже после проверки правильных версий искры я получал ту же ошибку. Выполнение кода ниже сработало для меня!
!pip install pyspark
!pip install pyarrow
!pip install -q findspark
from pyspark.sql import SparkSession
spark = SparkSession.builder.master('HelloWorld').getOrCreate()
Здравствуйте, я использую точно такой же код, и он выдает следующую ошибку: RuntimeError: Java gateway process exited before sending its port number
Не могли бы вы объяснить, почему?
Я использовал приведенную ниже настройку для запуска PySpark в Google Colab.
# Installing spark
!apt-get install openjdk-8-jre
!apt-get install scala
!pip install py4j
!wget -q https://downloads.apache.org/spark/spark-2.4.8/spark-2.4.8-bin-hadoop2.7.tgz
!tar xf spark-2.4.8-bin-hadoop2.7.tgz
!pip install -q findspark
# Setting up environment variables
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-2.4.8-bin-hadoop2.7"
# Importing and initating spark
import findspark
findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").appName("Test Setup").getOrCreate()
sc = spark.sparkContext
Большое спасибо, Хармит. Это супер простое решение. Интересно, почему так много средних и других сообщений в блогах указывают на долгий и сложный способ установки PySpark, когда существует такое супер простое решение!