Я извлек некоторую информацию из различных предупреждений Google, и мой результат извлечения выглядит примерно так:
Facebook settles Oculus VR lawsuit with ZeniMax
TechCrunch
... founding and acquisition. “We're pleased to put this behind us and
continue building the future of VR,” a Facebook spokesperson told
TechCrunch.
<https://www.google.com/url?rct=j&sa=t&url=https://techcrunch.com/2018/12/12/facebook-settles-oculusvr-lawsuit-with-zenimax/&ct=ga&cd=CAEYBCoUMTA1NTQ0MzQxMTM3ODI5Mzk1MzIyGjBiMDY5NmI3NmJkMWUyMDQ6Y29tOmVuOlVT&usg=AFQjCNGxKHLqECQfjR0PA5dBJPecbuwB4A>
Duck.com now points to DuckDuckGo, not Google
TechCrunch
Non-tracking search engine, DuckDuckGo, is now a little easier to find
online after the company acquired the premium generic domain name ...
<https://www.google.com/url?rct=j&sa=t&url=https://techcrunch.com/2018/12/12/duck-com-now-points-to-duckduckgo-not-google/&ct=ga&cd=CAEYBSoUMTA1NTQ0MzQxMTM3ODI5Mzk1MzIyGjBiMDY5NmI3NmJkMWUyMDQ6Y29tOmVuOlVT&usg=AFQjCNFq8-XijHAo4VFK1ABU5lD2Kts3BQ>
Как видите, я получаю такие ссылки:
<https://www.google.com/url?rct=j&sa=t&url=https://techcrunch.com/2018/12/12/facebook-settles-oculusvr-lawsuit-with-zenimax/&ct=ga&cd=CAEYBCoUMTA1NTQ0MzQxMTM3ODI5Mzk1MzIyGjBiMDY5NmI3NmJkMWUyMDQ6Y29tOmVuOlVT&usg=AFQjCNGxKHLqECQfjR0PA5dBJPecbuwB4A>
и относительный текст для этой ссылки - Facebook settles Oculus VR lawsuit with ZeniMax
Я хочу, чтобы мой вывод был как "Facebook settles Oculus VR lawsuit with ZeniMax"
, когда при нажатии на строку я перенаправляю меня на <https://www.google.com/url?rct=j&sa=t&url=https://techcrunch.com/2018/12/12/facebook-settles-oculusvr-lawsuit-with-zenimax/&ct=ga&cd=CAEYBCoUMTA1NTQ0MzQxMTM3ODI5Mzk1MzIyGjBiMDY5NmI3NmJkMWUyMDQ6Y29tOmVuOlVT&usg=AFQjCNGxKHLqECQfjR0PA5dBJPecbuwB4A>
Короче говоря, мой вывод для предоставленного мной ввода должен быть:
Facebook settles Oculus VR lawsuit with ZeniMax
Duck.com now points to DuckDuckGo, not Google
И к этому тексту должны быть прикреплены все относительные ссылки. В моем выводе я не хочу отображать ссылки, вместо этого какой-то текст, чтобы он был удобочитаемым человеком. Я новичок в python, поэтому мне нелегко это понять.
Я извлек ссылку и текст, и после этого я искал разные способы получить вывод в требуемом формате, но мне не повезло.
Вам нужно будет открыть ссылку, проанализировать ее html-код на предмет div class
<article__title>
, чтобы вытащить название заголовка и заменить его в <your link>
. Имейте в виду, что разные веб-сайты будут анализироваться по-разному, так как некоторые могут использовать <title>
вместо <article__title>
от Techcrunch.Я рекомендую использовать requests
вместе с defusedxml
, или selenium
, или scrapy
, или BeautifulSoup4
для синтаксического анализа.
Я не сканирую веб-страницы. Я подписался на некоторые оповещения Google, которые присылают мне письма с такими ссылками. Я просматриваю эти письма и извлекаю все ссылки. Поэтому я не могу использовать запросы или scrapy.
Вы хотите использовать HTML
?
@stovfl что вы имеете в виду под HTML? Пожалуйста, дополните
Нравится <a href = "https://www.wikipedia.org/">A link to Wikipedia!</a>
=> Ссылка на Википедию!
Я сделал то же самое, что и сейчас
Где вы ожидаете использовать эту ссылку? Сначала вам нужно извлечь ссылку. Затем отформатируйте его как HTML и поместите там, где пользователь может его использовать. что ты уже испробовал?