Python: как ускорить этот метод утомления? Три?

У меня есть корпус со строками предложений без пробелов между словами:

thenextdayonmayanarchistsstagedarallyatchicagoshaymarketsquare
abombwasthrownbyanunknownpartyneartheconclusionoftherallykillinganofficer
intheensuingpanicpoliceopenedfireonthecrowdandeachother
sevenpoliceofficersandatleastfourworkerswerekilled

Мне нужно разделить каждое предложение лексикой в словаре, например: {'the': 1, 'next':2, 'thenext':3'...} Цифры - это просто частоты, которые здесь не важны.

На выходе будут варианты (списки) сегментов, например: [[the, next, day...], [thenext, day...]...]

А вот мой код (filter_worddict - словарь)

def segment(sentence):
    if sentence == '':
        yield []
    for w in filter_worddict:
        if sentence.startswith(w):
            for rest in segment(sentence[len(w):]):
                yield [w] + rest

with open('sentences.txt', 'r') as f4, open('result.txt', 'w') as f5:
    for line4 in f4:
        line4 = line4.strip()
        corpus = list(segment(line4))
        for corpusline in corpus:
            f5.write(str(corpusline) + '\n')

Как можно ускорить этот код? В последний раз, когда я пытался использовать корпус (менее 30 МБ), размер словаря был 5 МБ, и это заняло 48 часов. . .

Я огляделся, и у меня есть выбор между Трие и Питри, что кажется многообещающим решением. Но я не знаю, как это правильно сделать в этом случае. Заранее спасибо!

вы пробовали использовать потоки?

— 20.05.2018 15:12

python python-3.x methods tree trie

19.05.2018 18:55

Почему в Python есть оператор "pass"?

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

1

1

69

0

Другие вопросы по теме

Использование переменной как атрибута класса

Аутентификация пользователя LDAP

Python открывает новое окно консоли вместо печати в cmd

Ошибка очистки данных Twitter python3.4: KeyError: 'user'

Ошибка кода классификатора с несколькими метками

Как правильно импортировать CSV-файл в DataFrame?

Джикстра с двумя факторами в python3

Python: рекурсия в поиске общего предка в двоичном дереве поиска

Что означает «Нет» в Python?

Как перемножить все значения в два списка и получить соответствующую матрицу

Похожие вопросы

Как сбросить итератор списка в Python?

Использование переменной как атрибута класса

Проверка версии TensorFlow в Python - «tf .__ version__» vs «tf.VERSION»?

Слежка за экземплярами классов и методами

Почему boxplot от matplotlib 1.4.0 не то же самое, что boxplot от matplotlib 2.2.0 для тех же данных?

Очистка текста для нескольких файлов в Python

Случайным образом выбрать подмножество всех комбинаций в Python

Изменение значения при сериализации - Django Rest Framework

Когда terraform применяет aws_spot_fleet_request, как я могу получить частные IP-адреса?

Борьба с определением подкласса фрейма tkinter (в python), который должен позволить пользователю выбирать, какую часть контента отображать