Дональд Кнут однажды получил задание написать грамотную программу, вычисляющую частоту слов в файле.
Read a file of text, determine the n most frequently used words, and print out a sorted list of those words along with their frequencies.
Дуг Макилрой классно переписал 10 страниц Паскаля в несколько строчек:
tr -cs A-Za-z '\n' |
tr A-Z a-z |
sort |
uniq -c |
sort -rn |
sed ${1}q
В качестве небольшого упражнения я преобразовал это в Powershell:
(-split ((Get-Content -Raw test.txt).ToLower() -replace '[^a-zA-Z]',' ')) |
Group-Object |
Sort-Object -Property count -Descending |
Select-Object -First $Args[0] |
Format-Table count, name
Мне нравится, что Powershell объединяет sort | uniq -c
в один Group-Object
.
Первая строка выглядит некрасиво, поэтому интересно, можно ли ее написать более элегантно? Может быть, есть способ как-то загрузить файл с разделителем регулярных выражений?
Одним из очевидных способов сократить код было бы использование псевдонимов, но это не способствует удобочитаемости.
Вы можете убрать .ToLower()
, убрать заглавные буквы A-Z
из замены, потому что по умолчанию и -replace
, и Group-Object
работают без учета регистра.
ПРИМЕЧАНИЕ. Макилрой не «переписывал» решение Кнута. Он только показал, как ту же задачу можно решить, повторно используя стандартные программы Unix. Естественно, этот подход намного медленнее высокоэффективного решения Кнута.
Я бы сделал это так.
PS C:\users\me> Get-Content words.txt
One one
two
two
three,three.
two;two
PS C:\users\me> (Get-Content words.txt) -Split '\W' | Group-Object
Count Name Group
----- ---- -----
2 One {One, one}
4 two {two, two, two, two}
2 three {three, three}
1 {}
Обновлено: некоторый код из Windows Powershell Брюса Пайетта в действии
# top 10 most frequent words, hash table
$s = gc songlist.txt
$s = [string]::join(" ", $s)
$words = $s.Split(" `t", [stringsplitoptions]::RemoveEmptyEntries)
$uniq = $words | sort -Unique
$words | % {$h=@{}} {$h[$_] += 1}
$frequency = $h.keys | sort {$h[$_]}
-1..-10 | %{ $frequency[$_]+" "+$h[$frequency[$_]]}
# or
$grouped = $words | group | sort count
$grouped[-1..-10]
Поскольку содержимое группы не имеет значения, добавьте -NoElement
к Group-Object, чтобы быть немного более эффективным. С текстом в реальном слове (например, публикацией ОП) вы должны попробовать: (Get-Content words.txt) -Split '\W' -ne '' | Group-Object -NoElement|Where Count -gt 1|Sort count -desc
Почему Where Count -gt 1
?
Спасибо js2010 и LotPings за важные советы. Чтобы задокументировать, что, вероятно, является лучшим решением:
$Input -split '\W+' |
Group-Object -NoElement |
Sort-Object count -Descending |
Select-Object -First $Args[0]
Вещи, которые я узнал:
$Input
содержит стандартный ввод. Это ближе к коду Макилроя, чем Get-Content к какому-то файлу.-NoElement
позволил мне избавиться от строки Format-Table.Короче: -split $input | group -n | sort c* | select -l 1
. Конечный эффект короче, чем вариант Баша Дуга, и более читабелен.
Виндовс 10 64-битная. PowerShell 5
Как узнать, какое целое слово (the
не -the-
или weathe
r) независимо от регистра чаще всего используется в текстовом файле и сколько раз оно используется с помощью Powershell:
Замените 1.txt своим файлом.
$z = gc 1.txt -raw
-split $z | group -n | sort c* | select -l 1
Результаты:
Count Name
----- ----
30 THE
Поскольку ваш скрипт работает и вы не получаете никаких ошибок, я думаю, что это лучше подходит для проверки кода: codereview.stackexchange.com