Использование искры для чтения файла из hdfs

У меня есть код ниже, который читает файлы с моего локального диска, но я хочу, чтобы он читал файлы из папки на hdfs. Я хотел бы использовать метод sc.textfile, но я немного застрял при его правильной инициализации. не могли бы вы помочь?

session = SparkSession.builder.appName('myapp')
session = session.master ('local').getOrCreate()
sql_context = SQLContext(session.SparkContext)
sql_context.sql("SET spark.sql.autoBroadcastJoinThreshold=-1")
cwd=os.getcwd()

names=session.read.csv(os.path.join (cwd, 'local/path/to/file'),    header=True, inferSchema=True).repartition(nameid)
classes=session.read.csv(os.path.join (cwd, 'local/path/to/file'),    header=True, inferSchema=True).repartition(classid)
2
0
64
1

Ответы 1

Почему бы вам не продолжить сеанс / искру?

df_load = sparkSession.read.csv('hdfs://cluster/user/hdfs/test/*.csv')

если я это сделаю, то заменю ли я свои кодовые имена = session.read.csv (os.path.join (cwd, 'local / path / to / file'), header = True, inferSchema чем угодно

elmify 10.08.2018 16:50

да, вы можете адаптировать и выполнять сопоставление шаблонов регулярных выражений в разных каталогах. Я использую искру, но у вас есть переменная сеанса, круто.

thebluephantom 10.08.2018 17:09

Это помогло случайно?

thebluephantom 24.08.2018 16:12

Другие вопросы по теме