Интересно, существует ли эффективный алгоритм для извлечения наиболее часто повторяющихся фраз, слов и фрагментов слов в определенном языковом корпусе и кодирования его в сокращенные уникальные ключи, такие как «о боже> боже», для эффективного ручного набора текста.
Ключи должны быть уникальными, чтобы их можно было оперативно раскрывать, как в функции расширения текста в Mac OS.
Есть ли академический термин для такой вещи?





Компрессор ZIP работает с использованием этого механизма, то есть генерирует СЛОВАРЬ повторяющихся строк, а затем развертывает соответствующий ключ записи Словаря вместо фактической строки. Вы можете попробовать посмотреть, что это его алгоритм.