Не удалось установить PySpark в Google Colab

Я пытаюсь установить PySpark в Google Colab, используя приведенный ниже код, но получаю следующую ошибку.

tar: spark-2.3.2-bin-hadoop2.7.tgz: невозможно открыть: нет такого файла или каталога

tar: ошибка неустранима: выход сейчас

Этот код был успешно выполнен один раз. Но выдает эту ошибку после перезагрузки ноутбука. Я даже пытался запустить это из другой учетной записи Google, но снова та же ошибка.

(Также есть ли способ, которым нам не нужно устанавливать PySpark каждый раз после перезапуска ноутбука?)

код:

--------------------------------------------------------------------------------------------------------------------------------

!apt-get install openjdk-8-jdk-headless -qq > /dev/null

!wget -q http://apache.osuosl.org/spark/spark-2.3.2/spark-2.3.2-bin-hadoop2.7.tgz

Эта следующая строка, кажется, вызывает проблему, поскольку она не находит загруженный файл.

!tar xvf spark-2.3.2-bin-hadoop2.7.tgz

Я также попробовал следующие две строки (вместо двух строк выше), предложенные где-то в блоге среднего размера. Но ничего лучше.

!wget -q http://mirror.its.dal.ca/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz

!tar xvf spark-2.4.0-bin-hadoop2.7.tgz

!pip установить -q findspark

-------------------------------------------------------------------------------------------------------------------------------

Есть идеи, как выйти из этой ошибки и установить PySpark на Colab?

Стоит ли изучать PHP в 2023-2024 годах?
Стоит ли изучать PHP в 2023-2024 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
5
0
4 311
5
Перейти к ответу Данный вопрос помечен как решенный

Ответы 5

Ответ принят как подходящий

Я запускаю pyspark в colab, просто используя

!pip установить pyspark

и это работает нормально.

Большое спасибо, Хармит. Это супер простое решение. Интересно, почему так много средних и других сообщений в блогах указывают на долгий и сложный способ установки PySpark, когда существует такое супер простое решение!

Ankit Sharma 07.04.2019 10:07

Я рад, что это помогло :).

Harmeet 08.04.2019 01:59

вы получаете эту ошибку, потому что искра-2.3.2-бин-hadoop2.7 заменен последней версией на официальном сайте и зеркалах.

Перейдите по любому из этих путей и получите последнюю версию

  1. http://apache.osuosl.org/spark/
  2. https://www-us.apache.org/dist/spark/

замените версию сборки искры, и все готово. все будет работать гладко.

!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://www-us.apache.org/dist/spark/spark-2.4.3/spark-2.4.3-bin-hadoop2.7.tgz
!tar xf /content/spark-2.4.3-bin-hadoop2.7.tgz
!pip install -q findspark

Дата: 09.06.2020


Шаг 1 : Установите pyspark в Google Colab

!pip install pyspark

Шаг 2 : Работа с pandas и spark Dataframe внутри сеанса spark

!pip install pyarrow

It facilitates communication between many components, for example, reading a parquet file with Python (pandas) and transforming to a Spark data frame, Falcon Data Visualization or Cassandra without worrying about conversion.

Шаг 3 : Создать сеанс Spark

from pyspark.sql import SparkSession
spark = SparkSession.builder.master('local').getOrCreate()

Готово ⭐

Я пытался установить таким же образом, но даже после проверки правильных версий искры я получал ту же ошибку. Выполнение кода ниже сработало для меня!

!pip install pyspark
!pip install pyarrow
!pip install -q findspark
from pyspark.sql import SparkSession
spark = SparkSession.builder.master('HelloWorld').getOrCreate()

Здравствуйте, я использую точно такой же код, и он выдает следующую ошибку: RuntimeError: Java gateway process exited before sending its port number Не могли бы вы объяснить, почему?

Hira Tanveer 01.01.2022 11:49

Я использовал приведенную ниже настройку для запуска PySpark в Google Colab.

# Installing spark 
!apt-get install openjdk-8-jre
!apt-get install scala
!pip install py4j
!wget -q https://downloads.apache.org/spark/spark-2.4.8/spark-2.4.8-bin-hadoop2.7.tgz
!tar xf spark-2.4.8-bin-hadoop2.7.tgz
!pip install -q findspark

# Setting up environment variables
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-2.4.8-bin-hadoop2.7"

# Importing and initating spark
import findspark
findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").appName("Test Setup").getOrCreate()
sc = spark.sparkContext

Другие вопросы по теме