Как распаковать Gzip с помощью Apache Spark Java

у меня есть файл последовательности. В этом файле каждое значение сжатого файла json с GZipped. Моя проблема, как читать сжатые файлы json с помощью Apache Spark?

для этого моего кода,

JavaSparkContext jsc = new JavaSparkContext("local", "sequencefile");
    JavaPairRDD<String, byte[]> file = jsc.sequenceFile("file:\\E:\\part-00004", String.class, byte[].class);

    JavaRDD<String> map = file.map(new Function<Tuple2<String, byte[]>, String>() {
        public String call(Tuple2<String, byte[]> stringTuple2) throws Exception {
            byte[] uncompress = uncompress(stringTuple2._2);
            return uncompress.toString();
        }
    });

Но эта функция кода не работает. Хорошего дня

json apache-spark rdd

19.06.2018 16:17

Как сделать HTTP-запрос в Javascript?

Как сделать HTTP-запрос в Javascript?

В JavaScript вы можете сделать HTTP-запрос, используя объект XMLHttpRequest или более новый API fetch. Вот пример для обоих методов:

0

0

132

1

Ответы 1

При создании контекста искры используйте конструктор, который также примет конфигурацию искры в качестве третьего параметра.

Установите значение конфигурации Spark для ключа org.apache.hadoop.io.compression.codecs.

Как показано ниже

«Org.apache.hadoop.io.compress.GzipCodec, org.apache.hadoop.io.compress.BZip2Codec»

19.06.2018 17:59

Другие вопросы по теме

Шаги по запуску Spark с помощью пряжи

Ошибка сериализации задачи при использовании UDF

Проблема с разъемом искра-касснадра

В Scala Spark не найдено тегов TypeTag. Написание метода для получения structype внутри трейта

Искры dataframe в запечатанный тип признака

Не удалось получить IP-адреса модулей Ignite при запуске клиента Spark

Каков наиболее эффективный способ объединения очень большого фрейма данных (1000300 строк) и относительно меньшего фрейма данных (6090 строк) в Spark SQL?

Groupby dataframe занимает слишком много времени

Эффективный GraphFrame для разных типов вершин

Кодировка аргументов приложения Spark

Похожие вопросы

Написание экспресс-API JS с ошибкой приложения node.JS

Как получить последние 10 объектов только из данных JSON

Массив PHP в JSON.parse javascript

Невозможно получить доступ к ошибке получения JSON

Как преобразовать объект, имеющий ссылку на другой объект, в ядро json Asp.net

Как мне заставить JSON.Stringify правильно анализировать переменную?

Невозможно преобразовать в JSONObject после обновления массива

Анализируйте данные JSON с помощью Axios и NodeJS Express (соответствие схеме для мангуста)

Хранить изображение SVG в JSON или нет?

Entity Framework в настраиваемый объект, содержащий список другого объекта