Счетчик слов Python, подсчитывающий слова только один раз

Я пытаюсь создать счетчик слов Python, который считает слова из файла, который был введен в словарь. Однако мой счетчик считает слово только один раз, и я не знаю почему. Кроме того, есть ли способ не использовать счетчик коллекции?

cloud = {}
val = 0
with open('objects.txt', 'r') as file:
    for line in file:
        for thing in line:
            new_thing = thing.strip(' ')
            cloud[new_thing] = val
            for new_thing in cloud:
                cloud[new_thing] = cloud.get(new_thing, val) + 1

Каждый раз, когда вы встречаете это слово, вы немедленно сбрасываете счетчик всех остальных вхождений на 0: cloud[new_thing] = 0

— 13.07.2018 09:08

Возможно, вы захотите взглянуть на Counter Dict из модуля коллекций для этого, это сэкономит вам немного работы. Вы можете просто использовать Счетчик (список), и он предоставит словарь всех слов и их количество в списке.

— 13.07.2018 09:09

Можете ли вы привести простой пример файла и ожидаемых результатов. Может быть, есть способ лучше решить ту же проблему

— 13.07.2018 09:20

имена файловых объектов, такие как «зубная щетка, ручки-ручки, карандаш», повторяются несколько раз. Моя цель - посчитать, сколько раз появляются объекты. поэтому, если я дважды увижу зубную щетку, это будет-> зубная щетка: 2

— 13.07.2018 09:30

python python-3.x python-3.6

13.07.2018 09:04

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

238

Ответы 4

В вашем коде для каждой новой строки вы устанавливаете

cloud[new_thing] = 0

который сбрасывает счетчик слова new_thing.

Поскольку вы уже используете cloud.get(new_thing, 0), который вернет 0, если ключ new_thing не найден, вы можете просто удалить эту строку.

В чем разница между «печатью для проверки правильности подсчета всех слов» и печатью словаря? Можете ли вы показать код, который вы используете для печати?

— 13.07.2018 10:00

13.07.2018 09:09

Помимо инициализации значения каждого "new_thing" равным 0 (cloud[new_thing] = 0), как отмечали другие, существует еще одна серьезная проблема: вы пытаетесь перебрать cloud перед добавлением к нему любого элемента (таким образом, for new_thing in cloud: и его блок фактически ничего не делают. , потому что cloud пуст). В этом нет необходимости, поскольку доступ к словарям осуществляется непоследовательно.

Вы можете заменить

new_thing = thing.strip(string.punctuation)
cloud[new_thing] = 0
for new_thing in cloud:
    cloud[new_thing] = cloud.get(new_thing, 0) + 1

с помощью всего:

new_thing = thing.strip(string.punctuation)
cloud[new_thing] = cloud.get(new_thing, 0) + 1

или используйте collections.Counter, который, как предлагают другие, уже делает то, что вы пытаетесь выполнить, и, вероятно, упростит вашу задачу.

13.07.2018 09:34

вы можете использовать функцию setdefault словаря Python

for new_thing in cloud:
                count = cloud.setdefault(new_thing, 0)
                cloud[new_thing] = count + 1

13.07.2018 09:37

Я бы извлек часть, которая разбивает файл на строки и слова и удаляет знаки препинания:

def strip_punctuation(lines):
    for line in lines:
        for word in line:
            yield word.strip(string.punctuation)


with open('objects.txt', 'r') as file:
    cloud = collections.Counter(strip_punctuation(file))

или, что еще более кратко, используя itertools.chain и map:

with open('objects.txt', 'r') as file:
    words = itertools.chain.from_iterable(file)
    words_no_punctuation = map(lambda x: x.strip(string.punctuation))
    cloud = collections.Counter(words_no_punctuation)

слова

PS: for thing in line: разбивает строку не словами, а символами. Я думаю вы имеете в виду for thing in line.split():

тогда последний вариант становится:

with open('objects.txt', 'r') as file:
    words_per_line = map(lambda line: line.split(), file)
    words = itertools.chain.from_iterable(words_per_line)
    words_no_punctuation = map(lambda x: x.strip(string.punctuation))
    cloud = collections.Counter(words_no_punctuation)

13.07.2018 10:05