У меня есть код для анализа файла журнала с помощью map transformatio
n. Затем RDD
был преобразован в DF
.
val logData = sc.textFile("hdfs://quickstart.cloudera:8020/user/cloudera/syslog.txt")
val logDataDF = logData.map(rec => (rec.split(" ")(0), rec.split(" ")(2), rec.split(" ")(5))).toDF("month", "date", "process")
Я хотел бы знать, могу ли я использовать в этом случае mapPartitions
вместо map
.
Если вам абсолютно необходимо использовать mapPartitions, простой ответ - обратное преобразование в RDD. Однако DataFrames следует использовать вместо RDD, потому что API на основе RDD, вероятно, будет удален в Spark 3.0.
Собственно в этом нет необходимости. Я хотел бы знать, есть ли способ переписать этот код с помощью mapPartitions.
Я не знаю, каково ваше использование, но вы определенно можете использовать mapPartition
вместо map
. Код ниже вернет тот же logDataDF
.
val logDataDF = logData.mapPartitions(x => {
val lst = scala.collection.mutable.ListBuffer[(String, String, String)]()
while (x.hasNext) {
val rec = x.next().split(" ")
lst += ((rec(0), rec(2), rec(5)))
}
lst.iterator
}).toDF("month", "date", "process")
зачем нужны разделы карты?