Частота слов элегантно в Powershell

Дональд Кнут однажды получил задание написать грамотную программу, вычисляющую частоту слов в файле.

Read a file of text, determine the n most frequently used words, and print out a sorted list of those words along with their frequencies.

Дуг Макилрой классно переписал 10 страниц Паскаля в несколько строчек:

tr -cs A-Za-z '\n' |
tr A-Z a-z |
sort |
uniq -c |
sort -rn |
sed ${1}q

В качестве небольшого упражнения я преобразовал это в Powershell:

(-split ((Get-Content -Raw test.txt).ToLower() -replace '[^a-zA-Z]',' ')) |
  Group-Object |
  Sort-Object -Property count -Descending |
  Select-Object -First $Args[0] |
  Format-Table count, name

Мне нравится, что Powershell объединяет sort | uniq -c в один Group-Object.

Первая строка выглядит некрасиво, поэтому интересно, можно ли ее написать более элегантно? Может быть, есть способ как-то загрузить файл с разделителем регулярных выражений?

Одним из очевидных способов сократить код было бы использование псевдонимов, но это не способствует удобочитаемости.

Поскольку ваш скрипт работает и вы не получаете никаких ошибок, я думаю, что это лучше подходит для проверки кода: codereview.stackexchange.com

I.T Delinquent 30.05.2019 14:45

Вы можете убрать .ToLower(), убрать заглавные буквы A-Z из замены, потому что по умолчанию и -replace, и Group-Object работают без учета регистра.

Theo 30.05.2019 14:51

ПРИМЕЧАНИЕ. Макилрой не «переписывал» решение Кнута. Он только показал, как ту же задачу можно решить, повторно используя стандартные программы Unix. Естественно, этот подход намного медленнее высокоэффективного решения Кнута.

Andriy Makukha 02.02.2020 21:19
Стоит ли изучать PHP в 2023-2024 годах?
Стоит ли изучать PHP в 2023-2024 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
2
3
1 725
3
Перейти к ответу Данный вопрос помечен как решенный

Ответы 3

Я бы сделал это так.

PS C:\users\me> Get-Content words.txt
One one
two
two
three,three.
two;two


PS C:\users\me> (Get-Content words.txt) -Split '\W' | Group-Object

Count Name                      Group
----- ----                      -----
    2 One                       {One, one}
    4 two                       {two, two, two, two}
    2 three                     {three, three}
    1                           {}

Обновлено: некоторый код из Windows Powershell Брюса Пайетта в действии

# top 10 most frequent words, hash table
$s = gc songlist.txt
$s = [string]::join(" ", $s)
$words = $s.Split(" `t", [stringsplitoptions]::RemoveEmptyEntries)
$uniq = $words | sort -Unique
$words | % {$h=@{}} {$h[$_] += 1}
$frequency = $h.keys | sort {$h[$_]}
-1..-10 | %{ $frequency[$_]+" "+$h[$frequency[$_]]}

# or
$grouped = $words | group | sort count
$grouped[-1..-10]

Поскольку содержимое группы не имеет значения, добавьте -NoElement к Group-Object, чтобы быть немного более эффективным. С текстом в реальном слове (например, публикацией ОП) вы должны попробовать: (Get-Content words.txt) -Split '\W' -ne '' | Group-Object -NoElement|Where Count -gt 1|Sort count -desc

user6811411 30.05.2019 19:21

Почему Where Count -gt 1?

qznc 30.05.2019 20:05
Ответ принят как подходящий

Спасибо js2010 и LotPings за важные советы. Чтобы задокументировать, что, вероятно, является лучшим решением:

$Input -split '\W+' |
  Group-Object -NoElement |
  Sort-Object count -Descending |
  Select-Object -First $Args[0]

Вещи, которые я узнал:

  • $Input содержит стандартный ввод. Это ближе к коду Макилроя, чем Get-Content к какому-то файлу.
  • split может фактически принимать разделители регулярных выражений
  • параметр -NoElement позволил мне избавиться от строки Format-Table.

Короче: -split $input | group -n | sort c* | select -l 1. Конечный эффект короче, чем вариант Баша Дуга, и более читабелен.

majkinetor 31.05.2019 10:47

Виндовс 10 64-битная. PowerShell 5

Как узнать, какое целое слово (the не -the- или weather) независимо от регистра чаще всего используется в текстовом файле и сколько раз оно используется с помощью Powershell:

Замените 1.txt своим файлом.

$z = gc 1.txt -raw
-split $z | group -n | sort c* | select -l 1

Результаты:

Count Name
----- ----
30    THE

Другие вопросы по теме