Веб-сайты Веб-скрапинг электронных писем с использованием Python

В моем коде Python у меня есть регулярное выражение для поиска электронной почты:

soup = BeautifulSoup(driver.page_source, "html.parser")
text_email = soup.get_text()
emails1 = re.findall(r'([a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,6})', str(text_email))

Около 90% случаев этот код возвращает правильные адреса электронной почты.

Но ниже у меня есть пример того, что он возвращает формат электронной почты с ошибкой.

На веб-странице: https://s7health.pl/kontakt/

у нас есть телефон, электронная почта и текст:

71 342 88 41
[email protected]
Infolinia medyczna

исходный код над текстом:

<a class = "text-decoration-underline" href = "tel:+48713428841">71 342 88 41</a><br /><a class = "text-decoration-underline" href = "mailto:[email protected]">[email protected]</a></div><style>.porto-u-3166.porto-u-heading{text-align:left}</style></div><div class = "porto-u-heading  wpb_custom_95aa9a11c17ad45cfabaf210d84ee7cc porto-u-4257"><div class = "porto-u-main-heading"><h3   style = "font-weight:700;color:#0c6d70;font-size:1em;line-height:24px;">Infolinia medyczna</h3></div>

мой код возвращает электронное письмо как: [email protected]Информация

но должен вернуть электронное письмо как: [email protected]

кроме вопроса поиска письма по фразе mailto - этой фразы может не быть, зачем в письмо добавляли дополнительные символы? Как это можно решить?

с уважением

Есть ли у вас более ранний код, который удаляет теги из текста? В этом случае все данные тегов между номером телефона и адресом электронной почты будут удалены, оставив строку 71 342 88 [email protected]. Ваше регулярное выражение будет отправлено [email protected] по электронной почте. Если вы анализируете HTML, вам действительно следует использовать анализатор HTML вместо регулярных выражений. См. stackoverflow.com/q/1732348/14853083

— 21.03.2024 23:23

Ваше регулярное выражение отлично работает для контента, которым вы поделились.

— 21.03.2024 23:26

@GillesQuénot, я проверял это: "r'([a-zA-Z0-9._%+-]\S+@\S+[a-zA-Z0-9.-]+\.[a-zA-Z] {2,6})'", и это все равно вернуло неправильный адрес электронной почты: ['[email protected]'] . правильный ли у меня формат?

— 21.03.2024 23:58

@WiktorStribiżew Я вижу вашу ссылку, но мое регулярное выражение возвращает то, что я описал

— 22.03.2024 00:00

Это означает, что проблема связана с вашим str(text_email), а не с регулярным выражением.

— 22.03.2024 00:05

@WiktorStribiżew я отредактировал сообщение и добавил, какой у меня text_email: суп = BeautifulSoup(driver.page_source, "html.parser") text_email =soup.get_text() - что-то не так?

— 22.03.2024 00:16

Спасибо за редактирование вашего сообщения и добавление воспроизводимого кода с частью imports.

— 22.03.2024 00:52

python regex web-scraping

21.03.2024 23:11

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Проблема не в регулярном выражении:

from bs4 import BeautifulSoup
import requests
import re

url = 'https://s7health.pl/kontakt/'

response = requests.get(url)

soup = BeautifulSoup(response.content, 'html.parser')

email_regex = r'([a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,6})'
email_addresses = re.findall(email_regex, response.text)

for email in email_addresses:
    print(email)

Выход:

[email protected]
[email protected]
[email protected]

спасибо, выглядит красиво, мои результаты такие же, как у вас, но можно ли не возвращать строку типа: "[email protected]"?

— 22.03.2024 15:47

Каково тогда правило? Что конкретно это за письмо?

— 23.03.2024 00:21

22.03.2024 01:13

Другие вопросы по теме

Анализировать строку по запятой, но игнорировать запятые в кавычках и скобках

Извлечение шаблона в строку в pyspark с использованием регулярного выражения

RegEx не проверен должным образом в производственной сборке, не принимает 0, 2, 7, a, c, u, x, иногда также z

Pandas: заменить регулярное выражение строкой, заканчивающейся табуляцией, не работает

Регулярное выражение для строки, которая не начинается ни с одного символа группы и не содержит ни одной из нескольких подстрок

Можете ли вы заменить подстроку из совпадения с регулярным выражением?

Почему JavaScript возвращает разные результаты для метода RegExp test() с пустым объектом?

Результат регулярного выражения содержит дополнительное совпадение/группу только с возвратом

Регулярное выражение для группировки чисел по тройкам, исключая десятичные дроби

Как заменить строку в запросе Прометея?

Веб-сайты Веб-скрапинг электронных писем с использованием Python

Ответы 1

Другие вопросы по теме

Похожие вопросы