Я пытаюсь создать счетчик слов Python, который считает слова из файла, который был введен в словарь. Однако мой счетчик считает слово только один раз, и я не знаю почему. Кроме того, есть ли способ не использовать счетчик коллекции?
cloud = {}
val = 0
with open('objects.txt', 'r') as file:
for line in file:
for thing in line:
new_thing = thing.strip(' ')
cloud[new_thing] = val
for new_thing in cloud:
cloud[new_thing] = cloud.get(new_thing, val) + 1
Возможно, вы захотите взглянуть на Counter Dict из модуля коллекций для этого, это сэкономит вам немного работы. Вы можете просто использовать Счетчик (список), и он предоставит словарь всех слов и их количество в списке.
Можете ли вы привести простой пример файла и ожидаемых результатов. Может быть, есть способ лучше решить ту же проблему
имена файловых объектов, такие как «зубная щетка, ручки-ручки, карандаш», повторяются несколько раз. Моя цель - посчитать, сколько раз появляются объекты. поэтому, если я дважды увижу зубную щетку, это будет-> зубная щетка: 2






В вашем коде для каждой новой строки вы устанавливаете
cloud[new_thing] = 0
который сбрасывает счетчик слова new_thing.
Поскольку вы уже используете cloud.get(new_thing, 0), который вернет 0, если ключ new_thing не найден, вы можете просто удалить эту строку.
В чем разница между «печатью для проверки правильности подсчета всех слов» и печатью словаря? Можете ли вы показать код, который вы используете для печати?
Помимо инициализации значения каждого "new_thing" равным 0 (cloud[new_thing] = 0), как отмечали другие, существует еще одна серьезная проблема: вы пытаетесь перебрать cloud перед добавлением к нему любого элемента (таким образом, for new_thing in cloud: и его блок фактически ничего не делают. , потому что cloud пуст). В этом нет необходимости, поскольку доступ к словарям осуществляется непоследовательно.
Вы можете заменить
new_thing = thing.strip(string.punctuation)
cloud[new_thing] = 0
for new_thing in cloud:
cloud[new_thing] = cloud.get(new_thing, 0) + 1
с помощью всего:
new_thing = thing.strip(string.punctuation)
cloud[new_thing] = cloud.get(new_thing, 0) + 1
или используйте collections.Counter, который, как предлагают другие, уже делает то, что вы пытаетесь выполнить, и, вероятно, упростит вашу задачу.
вы можете использовать функцию setdefault словаря Python
for new_thing in cloud:
count = cloud.setdefault(new_thing, 0)
cloud[new_thing] = count + 1
Я бы извлек часть, которая разбивает файл на строки и слова и удаляет знаки препинания:
def strip_punctuation(lines):
for line in lines:
for word in line:
yield word.strip(string.punctuation)
with open('objects.txt', 'r') as file:
cloud = collections.Counter(strip_punctuation(file))
или, что еще более кратко, используя itertools.chain и map:
with open('objects.txt', 'r') as file:
words = itertools.chain.from_iterable(file)
words_no_punctuation = map(lambda x: x.strip(string.punctuation))
cloud = collections.Counter(words_no_punctuation)
PS: for thing in line: разбивает строку не словами, а символами. Я думаю вы имеете в виду for thing in line.split():
тогда последний вариант становится:
with open('objects.txt', 'r') as file:
words_per_line = map(lambda line: line.split(), file)
words = itertools.chain.from_iterable(words_per_line)
words_no_punctuation = map(lambda x: x.strip(string.punctuation))
cloud = collections.Counter(words_no_punctuation)
Каждый раз, когда вы встречаете это слово, вы немедленно сбрасываете счетчик всех остальных вхождений на 0:
cloud[new_thing] = 0