Найти равную подстроку в списке строк

Я пытаюсь понять, как найти равную подстроку в большом списке строк.

Этот метод отлично работает:

var results = myList.FindAll(delegate (string s) { return s.Contains(myString); });

Но он также ищет подстроку с частью слова, например, если я ищу «ты делаешь», он также находит дополнительное «ты не делаешь», потому что содержит «ты делаешь..».

В случае строки этот метод дает желаемый результат:

 bool b = str.Contains(myString);
 if (b)
 {
     int index = str.IndexOf(myString);    
 }

Как получить такое же соответствие со списком

Самый простой способ — использовать регулярные выражения (например, \byou do\b).

— 29.01.2019 05:47

@John Привет, я не уверен в использовании регулярного выражения с поиском подстроки в большом списке строк, я думаю, это должно быть для каждой строки

— 29.01.2019 05:52

Насколько велик список?

— 29.01.2019 05:55

@John около 50 000 строк

— 29.01.2019 05:57

c# regex linq substring contains

29.01.2019 05:46

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

320

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Вы можете использовать регулярные выражения, чтобы вернуть все совпадения для набора потенциальных терминов:

string[] stringsToTest = new [] { "you do", "what" };
var escapedStrings = stringsToTest.Select(s => Regex.Escape(s)); // escape the test strings so that we can safely build them into the expression
var regex = new Regex("\\b(" + string.Join("|", escapedStrings) + ")\\b");
var matches = regex.Matches("How you do? How you don't? What you do? How you do what you do?");

Если у вас есть только один термин, вы можете переписать его как:

var regex = new Regex(string.Format("\\b({0})\\b", Regex.Escape("you do")));
var matches = regex.Matches("How you do? How you don't? What you do? How you do what you do?");

И затем вы можете сопоставить использование match.Groups[0] (для каждой группы в коллекции совпадений), чтобы получить совпадающее значение:

foreach (Match m in matches)
{
    Console.WriteLine(string.Format("Matched {0} at {1}", m.Groups[0].Value, m.Groups[0].Index));
}

Попробуйте онлайн

Итак, если мой список List<string> myList = new List<string>(); содержит около 50 000 строк типа "Как дела? Как дела? Что делаешь? Как делаешь, что делаешь?", то в этом случае каждая строка должна обрабатываться var matches = regex.Matches(myString) в цикле правильно?

— 29.01.2019 06:18

Вы уверены, что это не сложная обработка для этого случая?

— 29.01.2019 06:31

Вы получите лучшую производительность, используя IndexOf (не Contains, который вы используете в настоящее время), а затем проверяя следующий символ после совпадающей строки. Это зависит от того, насколько эффективным он вам действительно нужен. Попробуй это. Если это слишком медленно, оптимизируйте.

— 29.01.2019 06:33

вы имеете в виду IndexOf с delegate?

— 29.01.2019 06:39

Я имел в виду код, который вы предоставили под «В случае строки этот метод дает желаемый результат:»

— 29.01.2019 06:40

Ну, этот метод дает результат для строки, мой список процессов цели, так же, как и с регулярным выражением, должен быть зациклен для каждого, работает намного медленнее

— 29.01.2019 06:46

Для приведенной выше тестовой строки метод регулярных выражений в худшем случае вдвое медленнее метода без регулярных выражений с использованием IndexOf, который дает аналогичные результаты. Это то, что вам нужно оптимизировать (например, вы проверили скорость этого, чтобы определить, не слишком ли это медленно)? Я уверен, что кто-то другой с радостью даст вам ответ, в котором используется IndexOf.

— 29.01.2019 07:02

Извините за поздний ответ, до сих пор я не мог проверить ваше решение. Я не уверен, как получить список строк из совпадений с регулярными выражениями, и не нашел примера в Интернете, чтобы проверить ваше решение. Не могли бы вы дать мне ссылку или пример, как это должно быть сделано

— 30.01.2019 02:08

@Ai_ve, что ты имеешь в виду под списком строк? Какие струны?

— 30.01.2019 02:09

Я добавил новый вопрос здесь с примером моего кода, потому что это похоже на проблему другого типа.

— 30.01.2019 02:14

29.01.2019 05:53