Отсутствуют результаты регулярного выражения в Python

В настоящее время я изучаю Regex в Python, и мои ожидаемые результаты Regex не отображаются (я использую Python 3.6). Ниже приведен код для получения значений String, против которых я запускаю регулярное выражение:

import json
import os
import pandas as pd
import requests
import re

url = 'http://www.trumba.com/calendars/brisbane-city-council.json'
uh = requests.get(url)

json_data = json.loads(uh.text)
json_str = json.dumps(json_data)
panda_json = pd.read_json(json_str, typ = 'frame')

Теперь я хочу найти совпадение html-гиперссылка в «местоположении».

С помощью регулярного выражения я ожидаю найти совпадения, подобные приведенным ниже (любые значения между [<] и [>]):

<a href = "http://maps.google.com/?q=33+Teevan+St%2c+Stafford+QLD+4053%2c+Australia" target = "_blank">

поэтому я использую ниже Regex:

pattern = re.compile(r'/[<].*?[>]/')

а затем попытаться сохранить их в фрейме данных

matches = re.findall(pattern, str(panda_json['location']))

x = []
for match in matches:
    x.append(match)

x = pd.DataFrame(x)

А х ничего не показывает? Я уверен, что упускаю что-то очевидное.

Вы, вероятно, ищете panda_json['location'].str.extract(r'<([^>]+)>')

— 08.02.2019 10:20

Обратите внимание, что вы действительно должны использовать избегайте разбора HTML с помощью регулярных выражений, и у этого python есть восхитительная библиотека красивыйсуп, которая обрабатывает и извлекает данные из html.

— 08.02.2019 10:21

Спасибо обоим! @WiktorStribiżew это работает. Я узнаю полное определение регулярного выражения. Спасибо за вашу помощь.

— 09.02.2019 04:59

@Aaron спасибо также за совет и за указание на этот пост. Я буду копать глубже, почему мы должны избегать разбора HTML с помощью регулярных выражений (хотя я немного запутался... решение от Виктора, похоже, работает).

— 09.02.2019 05:00

Проблема в основном в том, что HTML — очень либеральный язык, и попытка учесть все ловушки в регулярном выражении не стоит того, особенно когда другие инструменты уже делают это. Даже в вашем простом случае может быть (технически, хотя и маловероятно) блок <![CDATA или комментарий <!-- в этих тегах, из-за которых регулярное выражение не сможет проанализировать их целиком, в то время как специализированный анализатор преуспеет.

— 09.02.2019 12:18

regex python-3.x pandas

08.02.2019 10:18

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Вы можете просто извлечь подстроки между < и >, используя

panda_json['location'].str.extract(r'<([^>]+)>')

Шаблон <([^>]+)> сопоставляет < с <, затем сопоставляет один или несколько символов, отличных от > с [^>]+, и, поскольку шаблон заключен в ( и ), помещается в группу 1 (и .str.extract выводит только захваченное значение), а затем > соответствует символ >.

09.02.2019 11:51

Другие вопросы по теме

Заставить SeleniumHQ в контейнере докеров закрыть все сеансы браузера

Как мы можем остановить программу в определенное время дня в 15:30 каждый день…? (она запускается каждую минуту)

Бесконечный цикл в базовом скрипте на Python 3.x

Перенаправление на страницу входа на любую ссылку, по которой я нажимаю

Получение ошибок при попытке обновить столбец в DynamoDb с помощью клиента python

Предоставление пользовательской переменной hue в sns.pairplot (Seaborn)

Пример привязки libvlc python: нет модуля с именем «оценщик»

Почему мой код работает с самого начала бесконечно, а не должен?

Python-nmap: nmap.PortScanner() — ошибка пути

Во время повторной выборки мои исходные данные не имеют нулевых значений, но затем, когда я передискретизирую средние значения, они генерируют кучу нулей?

Отсутствуют результаты регулярного выражения в Python

Ответы 1

Другие вопросы по теме

Похожие вопросы