Я разбираю действительно огромный файл JSON размером 1,4 ТБ (на всякий случай это дамп WikiData). Он настолько большой, что даже простой подсчет строк занимает вечность даже с помощью таких оптимизаций Количество строк в файле на Java Чтобы ускорить его, я собираюсь разделить задачу и запустить ее с использованием двух разных SSD на моем основном компьютере (поэтому я, вероятно, получаю дополнительную пропускную способность диска) и на других компьютерах, которые у меня есть (возможно, с использованием Apache Spark).
И вопрос, как мне начать читать файл со случайной позиции? Пропустить строки, очевидно, не вариант :). И я также хотел бы попытаться избежать физического разделения этого файла. На самом деле это самое простое и наиболее эффективное решение с точки зрения трафика и дискового пространства, но я хотел бы изучить альтернативы для некоторых угловых вариантов использования.
В общем, я делаю следующее:
JsonParser jp = f.createParser(new File(inputFile));
while(jp.nextToken() != JsonToken.END_OBJECT) {
//Fancy stuff
}
Есть ли способ быстро перейти к строке #20,000,000?
Вам придется разобрать весь файл один раз, не сохраняя его содержимое, и сохранить таблицу позиций файла (возможно, в другом файле). Записи JSON не имеют фиксированной ширины, поэтому это невозможно обойти.
можете ли вы преобразовать json во что-то другое или получить совершенно другой формат? (паркет был бы хорош, но даже csv не помешал бы)
Ваш вопрос предполагает, что ваш JSON имеет окончания строк, которых, скорее всего, не будет. Такие большие файлы, вероятно, лишены всех ненужных символов, а окончания строк, безусловно, не нужны в файле JSON.
Вы уже используете Jackson Streaming API, и это хорошо, потому что это ваш единственный шанс обработать такой большой файл. Хотя вы не можете перейти к определенной строке, вы можете перейти к определенной (байтовой) позиции, используя RandomAccessFile.html#seek(long). Вам нужно «угадать» позицию, на которую вы хотите перейти (исходя из общего размера файла). Поскольку ваш поиск, скорее всего, вы поместите в случайную позицию (например, внутри значения атрибута), вам, вероятно, потребуется сначала использовать некоторые пользовательские правила синтаксического анализа, чтобы найти допустимую начальную точку для запуска JSON Streaming Parser. Как только вы выяснили, когда именно вы находитесь в JSON, вы можете использовать парсер как обычно.
Спасибо, Рафаэль, а также спасибо @Jorge Campos. Так что задачу можно решить с помощью FileChannel. Можно прочитать часть файла в массив байтов и затем использовать метод JsonFactory.createParser(byte[]). И, да, нужно будет обрезать этот массив с обеих сторон, чтобы убедиться, что присутствуют только полные строки текста.
Отвечает ли это на ваш вопрос? Быстрый произвольный доступ для чтения/записи к большим файлам в java