Мы можем прочитать файл avro, используя приведенный ниже код,
val df = spark.read.format("com.databricks.spark.avro").load(path)
Можно ли читать файлы PDF с помощью фреймов данных Spark?
Спасибо, я хочу знать, можно ли читать файлы PDF с помощью фреймов данных Spark
Я думаю, что в настоящее время вам нужно прочитать данные как двоичный файл (RDD), а затем преобразовать их в фрейм данных. См. Соответствующую проблему JIRA: issues.apache.org/jira/browse/SPARK-20528
Вы не можете читать pdf и сохранять в df, поскольку он не может прерывать столбцы фрейма данных (в основном у него нет стандартная схема), поэтому, если вы хотите получить некоторые данные из pdf, сначала преобразуйте их в csv или parquet и затем вы можете читать из этого файла, а затем создать фрейм данных, поскольку он имеет определенную схему
посетите этот gitbook, чтобы узнать больше о доступных форматах чтения, которые вы можете использовать для получения данных в виде Dataframe.
DataFrameReader - загрузка данных из внешних источников данных
Возможный дубликат Как читать файлы PDF и XML в Apache Spark scala?