Произвольный доступ к текстовому файлу в Java

Я разбираю действительно огромный файл JSON размером 1,4 ТБ (на всякий случай это дамп WikiData). Он настолько большой, что даже простой подсчет строк занимает вечность даже с помощью таких оптимизаций Количество строк в файле на Java Чтобы ускорить его, я собираюсь разделить задачу и запустить ее с использованием двух разных SSD на моем основном компьютере (поэтому я, вероятно, получаю дополнительную пропускную способность диска) и на других компьютерах, которые у меня есть (возможно, с использованием Apache Spark).

И вопрос, как мне начать читать файл со случайной позиции? Пропустить строки, очевидно, не вариант :). И я также хотел бы попытаться избежать физического разделения этого файла. На самом деле это самое простое и наиболее эффективное решение с точки зрения трафика и дискового пространства, но я хотел бы изучить альтернативы для некоторых угловых вариантов использования.

В общем, я делаю следующее:

JsonParser jp = f.createParser(new File(inputFile));
while(jp.nextToken() != JsonToken.END_OBJECT) {
     //Fancy stuff
}

Есть ли способ быстро перейти к строке #20,000,000?

Отвечает ли это на ваш вопрос? Быстрый произвольный доступ для чтения/записи к большим файлам в java

Jorge Campos 02.04.2023 21:24

Вам придется разобрать весь файл один раз, не сохраняя его содержимое, и сохранить таблицу позиций файла (возможно, в другом файле). Записи JSON не имеют фиксированной ширины, поэтому это невозможно обойти.

VGR 02.04.2023 21:34

можете ли вы преобразовать json во что-то другое или получить совершенно другой формат? (паркет был бы хорош, но даже csv не помешал бы)

njzk2 02.04.2023 21:47
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
Как вычислять биты и понимать побитовые операторы в Java - объяснение с примерами
Как вычислять биты и понимать побитовые операторы в Java - объяснение с примерами
В компьютерном программировании биты играют важнейшую роль в представлении и манипулировании данными на двоичном уровне. Побитовые операции...
Поднятие тревоги для долго выполняющихся методов в Spring Boot
Поднятие тревоги для долго выполняющихся методов в Spring Boot
Приходилось ли вам сталкиваться с требованиями, в которых вас могли попросить поднять тревогу или выдать ошибку, когда метод Java занимает больше...
Полный курс Java для разработчиков веб-сайтов и приложений
Полный курс Java для разработчиков веб-сайтов и приложений
Получите сертификат Java Web и Application Developer, используя наш курс.
0
3
59
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Ваш вопрос предполагает, что ваш JSON имеет окончания строк, которых, скорее всего, не будет. Такие большие файлы, вероятно, лишены всех ненужных символов, а окончания строк, безусловно, не нужны в файле JSON.

Вы уже используете Jackson Streaming API, и это хорошо, потому что это ваш единственный шанс обработать такой большой файл. Хотя вы не можете перейти к определенной строке, вы можете перейти к определенной (байтовой) позиции, используя RandomAccessFile.html#seek(long). Вам нужно «угадать» позицию, на которую вы хотите перейти (исходя из общего размера файла). Поскольку ваш поиск, скорее всего, вы поместите в случайную позицию (например, внутри значения атрибута), вам, вероятно, потребуется сначала использовать некоторые пользовательские правила синтаксического анализа, чтобы найти допустимую начальную точку для запуска JSON Streaming Parser. Как только вы выяснили, когда именно вы находитесь в JSON, вы можете использовать парсер как обычно.

Спасибо, Рафаэль, а также спасибо @Jorge Campos. Так что задачу можно решить с помощью FileChannel. Можно прочитать часть файла в массив байтов и затем использовать метод JsonFactory.createParser(byte[]). И, да, нужно будет обрезать этот массив с обеих сторон, чтобы убедиться, что присутствуют только полные строки текста.

Sogawa-sps 09.04.2023 00:25

Другие вопросы по теме