Есть ли модуль python для сопоставления регулярных выражений в zip-файлах

У меня есть более миллиона текстовых файлов, сжатых в 40 zip-файлов. Еще у меня есть список из примерно 500 наименований моделей телефонов. Я хочу узнать, сколько раз конкретная модель упоминалась в текстовых файлах.

Есть ли какой-либо модуль python, который может выполнять сопоставление регулярных выражений в файлах без его разархивирования. Есть ли простой способ решить эту проблему без разархивирования?

python regex zip text-processing

18.08.2008 11:41

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

2 299

Перейти к ответу Данный вопрос помечен как решенный

Ответы 4

Вы можете циклически просматривать zip-файлы, читать отдельные файлы с помощью модуля zipfile и запускать на них свое регулярное выражение, избавляясь от необходимости распаковывать все файлы сразу.

Я почти уверен, что вы не можете запускать регулярное выражение для заархивированных данных, по крайней мере, бессмысленно.

18.08.2008 12:06

Чтобы получить доступ к содержимому zip-файла, вы должны распаковать его, хотя пакет zipfile делает это довольно легко, поскольку вы можете распаковать каждый файл в архиве индивидуально.

Модуль zipfile Python

18.08.2008 12:10

Ответ принят как подходящий

Нет ничего, что автоматически делало бы то, что вы хотите.

Однако есть модуль zipfile python, который упростит это. Вот как перебирать строки в файле.

#!/usr/bin/python

import zipfile
f = zipfile.ZipFile('myfile.zip')

for subfile in f.namelist():
    print subfile
    data = f.read(subfile)
    for line in data.split('\n'):
        print line

18.08.2008 12:19

Разве невозможно (по крайней мере теоретически) прочитать код Хаффмана ZIP, а затем преобразовать регулярное выражение в код Хаффмана? Может ли это быть более эффективным, чем сначала распаковать данные, а затем запустить регулярное выражение?

(Примечание: я знаю, что все будет не так просто: вам также придется иметь дело с другими аспектами кодирования ZIP - разметкой файлов, блочными структурами, обратными ссылками - но можно представить, что это может быть довольно легко.)

Обновлено: Также обратите внимание, что, вероятно, гораздо разумнее просто использовать решение zipfile.

Точно нет. Zip-файлы хранятся не в кодировке Хаффмана, а в кодировке на основе словаря. Кодирование символов зависит от кодирования других символов и их частоты в источнике. Так что у этой техники вообще нет шансов сработать.

— 27.01.2009 17:06

eliben, я не вижу никаких доказательств невозможности в вашем комментарии. Возможно, это поле слишком узкое, чтобы его вместить?

— 27.01.2009 18:40

03.09.2008 18:42