Алгоритм поиска максимальной встречаемости подстроки

Учитывая строку S, каков наилучший алгоритм поиска подстроки, которая повторяется максимальное количество раз.

Например, в «assdssfssd» это «ss», которое повторяется максимальное количество раз.

Фактически, наиболее повторяющаяся подстрока будет «s». (А если бы вы хотели придраться, «» повторялось бы еще чаще.)

— 18.12.2008 17:07

Предполагая, что вам нужны подстроки длиной два, как насчет перекрытия? Какое решение было бы для ddssssdd? дд = 2, сс = 3?

— 18.12.2008 17:09

Перекрывающаяся часть - отличный момент. Также стоит прояснить вопрос, что чаще всего встречается в случае подстрок разной длины.

— 18.12.2008 17:15

Вы ищете самую длинную подстроку с большим количеством повторений?

— 19.12.2008 11:16

algorithm

18.12.2008 17:04

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

4 363

Ответы 5

Я могу построить дерево для решения этой конкретной проблемы.

Есть условный корневой узел. Первый персонаж - это первый ребенок. Второй символ является потомком первого символа a -> s в вашем случае. Он также начинает новый лист корневого узла. Если при добавлении узла вы посещаете существующий узел, вы увеличиваете его счетчик (начальное значение 1).

После этого вы посещаете каждый узел дерева, чтобы найти тот, у которого наибольшее количество на самом глубоком уровне (потому что, если "asdf" встречается 5 раз, то "a", "as" и "asd" встречаются минимум 5 раз, по определению).

18.12.2008 17:09

Подстрока, которая повторяет больше всего будут, будет одной буквой, поэтому вы найдете букву, которая встречается чаще всего. Это довольно просто:

>>> str = 'Can Berk Güder'
>>> letters = [l for l in str]
>>> uniq_letters = set(letters)
>>> counts = [(letters.count(l), l) for l in uniq_letters]
>>> counts
[(1, 'B'), (1, 'C'), (1, 'G'), (1, 'a'), (1, 'd'), (1, 'k'), (1, 'n'), (1, 'ü'), (2, ' '), (2, 'e'), (2, 'r')]

Не забывайте пустую строку! :)

— 18.12.2008 17:14

Это зависит от определения проблемы. Какая подстрока используется чаще всего в случае asasd? «а», «с» или «как»? Я бы сказал, что это самая длинная подстрока в случае ничьей, иначе проблема тривиальна, как вы говорите, если вам не нужно найти все одинаково встречающиеся подстроки.

— 18.12.2008 17:14

@Bombe: я предполагал, что пустая подстрока игнорируется, поскольку она встречается бесконечно много раз в любой строке. знак равно

— 18.12.2008 18:24

@cletus: обратите внимание, что более длинная подстрока не может быть больше, чем более короткая, поэтому более короткий ответ (подстрока) так же хорош. Конечно, все меняется, если нужно перечислить все правильные ответы.

— 18.12.2008 18:25

@CanBerk: также необходимо прояснить проблему относительно того, нужно ли возвращать «любую», «все» или «самую длинную» наиболее частую подстроку (и).

— 19.12.2008 04:47

18.12.2008 17:10

// C# code, finds one of the most occurred non-empty substrings in O(n), proof by the reader!
int[] x = new int[65536];
foreach (char c in myString)
     x[(int)c]++;
int max = 0;
for (int i = 0; i < x.Length; ++i)
    if (x[max] < x[i])
        max = i;
return ((char)max).ToString();

Однако, вероятно, это не то, что вам нужно. Возможно, вам придется взглянуть на что-то вроде кодирования Хаффмана ...

18.12.2008 17:11

Похоже, вы ищете что-то близкое к алгоритму сжатия. Сжатие работает путем поиска избыточной (повторяющейся) информации и замены ее указателем на первое вхождение. Вот несколько примеров кода для этого:

http://www.developerfusion.com/code/1642/string-compression/

http://www.howtodothings.com/computers/a1223-simple-string-compression.html

18.12.2008 17:13

В строках длиной N

   No Of "1" character will be "N" which requires comparision of N * (N-1) / 2

   No of "2" characters will be "N-1" which requires comparision of (N-1) * (N-2) / 2


   No of "3" characters will be "N-2"  which requires comparision of (N-2) * (N-3) / 2

.............

и ни один из "N" символов не будет "1", что требует сравнения (1 * 0/2)

Следовательно, No Of Max Substrings = "N" + "N-1" + .... "1" = (N * (N + 1) / 2), и требуется сравнение (N + 1) * (N) * ( П-1) / 6

Если вы выполняете размещение сегмента (не сортировку) на каждом из символов одинакового размера, тогда

   No Of "1" character will be "N" which requires comparision of N -1 with buckets of N

   No of "2" characters will be "N-1" which requires comparision of (N-2) with Buckets of N-1

   No of "3" characters will be "N-2"  which requires comparision of (N-3) with Buckets of N-2

.............

и ни один из "N" символов не будет "1", что требует сравнения 0 с сегментом 1

Здесь он уменьшает общее количество сравнений до "N * (N-1) / 2"

Наконец, после того, как вы разместите ведро, возьмите ведро с наибольшим номером для вашего ответа.

19.12.2008 14:14