у меня есть файл последовательности. В этом файле каждое значение сжатого файла json с GZipped. Моя проблема, как читать сжатые файлы json с помощью Apache Spark?
для этого моего кода,
JavaSparkContext jsc = new JavaSparkContext("local", "sequencefile");
JavaPairRDD<String, byte[]> file = jsc.sequenceFile("file:\\E:\\part-00004", String.class, byte[].class);
JavaRDD<String> map = file.map(new Function<Tuple2<String, byte[]>, String>() {
public String call(Tuple2<String, byte[]> stringTuple2) throws Exception {
byte[] uncompress = uncompress(stringTuple2._2);
return uncompress.toString();
}
});
Но эта функция кода не работает. Хорошего дня

При создании контекста искры используйте конструктор, который также примет конфигурацию искры в качестве третьего параметра.
Установите значение конфигурации Spark для ключа org.apache.hadoop.io.compression.codecs.
Как показано ниже
«Org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.BZip2Codec»