Regex Python - вернуть кортеж с ключевыми словами из списка строк

У меня есть список ключевых слов, и я хочу проанализировать список длинных строк для ключевого слова, любое упоминание цены в денежном формате и любое другое число в строке меньше 10. Например:

keywords = ['Turin', 'Milan' , 'Nevada']
strings = ['This is a sentence about Turin with 5 and $10.00 in it.', ' 2.5 Milan is a city with £1,000 in it.', 'Nevada and $1,100,000. and 10.09']]

надеюсь, вернет следующее:

final_list = [('Turin', '$10.00', '5'), ('Milan', '£1,000', '2.5'), ('Nevada', '$1,100,000', '')]

У меня есть следующая функция с действующими регулярными выражениями, но я не знаю, как объединить выходные данные в список кортежей. Есть ли более простой способ добиться этого? Стоит ли разбивать по словам, а затем искать совпадения?

def find_keyword_comments(list_of_strings,keywords_a):
    list_of_tuples = []
    for string in list_of_strings:
        keywords = '|'.join(keywords_a)
        keyword_rx = re.findall(r"^\b({})\b$".format(keywords), string, re.I)
        price_rx = re.findall(r'^[\$\£\€]\s?\d{1,3}(?:[.,]\d{3})*(?:[.,]\d{1,2})?$', string)
        number_rx1 = re.findall(r'\b\d[.]\d{1,2}\b', string)
        number_rx2 = re.findall(r'\s\d\s', string)

Как бы вы отреагировали на предложение вроде «Билет из Турина в Милан стоил мне 100 долларов»?

— 18.05.2018 17:22

В идеале дубликаты должны фиксировать значения, наиболее близкие к цене и количеству.

— 18.05.2018 17:36

python regex python-3.x nlp

18.05.2018 17:12

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

287

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Вы можете использовать re.findall:

import re
keywords = ['Turin', 'Milan' , 'Nevada']
strings = ['This is a sentence about Turin with 5 and $10.00 in it.', '2.5 Milan is a city with £1,000 in it.', 'Nevada and $1,100,000. and 10.09']
grouped_strings = [(i, [b for b in strings if i in b]) for i in keywords]
new_groups = [(a, filter(lambda x:re.findall('\d', x),[re.findall('[\$\d\.£,]+', c) for c in b][0])) for a, b in grouped_strings]
last_groups = [(a, list(filter(lambda x:re.findall('\d', x) and float(x) < 10 if x[0].isdigit() else True, b))) for a, b in new_groups]

Выход:

[('Turin', ['5', '$10.00']), ('Milan', ['2.5', '£1,000']), ('Nevada', ['$1,100,000.'])]

18.05.2018 17:23

Другие вопросы по теме

Попытка написать SQL-запрос с regexp_matches () выглядит положительно в postgresql

Запрос замены текста (регулярное выражение)

Числовое выражение регулярного выражения

Регулярное выражение заменить и добавить дефис перед первым нулем

Regex.IsMatch возвращает True, что неверно

Regex игнорировать слова с частью строки

Измените seqID и удалите деталь после шаблона

Соответствовать всем тегам <a>, кроме доменов a, b и c

Получение java.util.regex.PatternSyntaxException: недопустимое повторение при попытке заменить String на replaceAll ()

Как очистить кеш изображения без переименования файла с помощью PHP?

Regex Python - вернуть кортеж с ключевыми словами из списка строк

Ответы 1

Другие вопросы по теме

Похожие вопросы