Как получить описание URL

У меня есть список URL-адресов, и я пытаюсь собрать их «описания». Под описанием я подразумеваю то, что появляется, например, если вы искали ссылку в Google. Например, http://stackoverflow.com "> Google: http://stackoverflow.com показывает описание как

A language-independent collaboratively edited question and answer site for programmers. Questions and answers displayed by user votes and tags.

Это данные, которые я пытаюсь собрать для имеющихся у меня URL-адресов.

Я попытался разобрать метаописания URL, однако у большинства из них отсутствует метаописание (но Google и другим поисковым системам каким-то образом удается получить описание).

Есть идеи? Должен ли я просто "гуглить" каждую ссылку и очищать данные? У меня такое чувство, что Google это не понравится ...

Спасибо ребята.

Кен - пожалуйста, перестань менять теги. Этот вопрос явно касается моих замечательных тегов.

— 25.11.2008 10:38

Рекомендуем закрывать как «Теги не такие уж крутые», как только эта опция закрытия станет доступной с помощью stackoverflow. ;-D

— 25.11.2008 10:45

Ничего страшного ... «не» будет потеряно, в то время как «теги классные» будут увеличены.

— 25.11.2008 11:07

search url metadata

19.11.2008 08:42

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

1 258

Ответы 7

У разных поисковых систем разные алгоритмы вывода описания со страницы, если / когда им не хватает метатега description. Некоторые игнорируют тег, даже если он там есть.

Если вам нужно описание, которое есть у Google, наиболее точным способом его получения будет его очистка. В противном случае вы можете написать свой собственный или поискать в Интернете код, который это делает.

19.11.2008 08:51

Вы можете проверить AboutUs.org (например, http://www.aboutus.org/StackOverflow.com). Но маловероятно, что на сайте будет страница о нас и не будет метаописания.

19.11.2008 08:57

Некоторая информация, которая может объяснить, как это делает Google:

19.11.2008 08:58

Я не знаком с API Google, но, возможно, есть официальный способ получить такую информацию.

Я отправил сообщение в их группу, но не получил ответа.

— 19.11.2008 09:23

19.11.2008 09:22

Интересно. одни источники лучше других.

Для "audiotuts.com" Google имеет худшее описание, чем AboutUs.com.

Google

Nov 18th in General by Joel Falconer · 1. Recently, an AUDIOTUTS reader asked me about creative process. While this is a topic that can’t be made into a ...

AboutUs.com:

AUDIOTUTS is a blog/tutorial site for musicians, producers and audio junkies! It is the sister site of the popular PSDTUTS, VECTORTUTS and NETTUTS.

Я ненавижу подобные проблемы ... они должны быть тривиальными, но это не так!

19.11.2008 09:29

Если вы можете предположить, что контент на английском языке, вы можете сначала поискать метаописание, а если это не сработает, вы можете поискать первые два или три последовательности слов, похожие на предложения.

Продукт, над которым я работал, искал первые P или DIV, содержащие более одной последовательности из> n «слов», разделенных точками. В качестве итогового абзаца он будет использовать две или три последовательности, похожие на предложения, до x всего слов. Это не было 100% точным, но достаточно хорошим для среднего случая. Количество слов было изменено несколько раз, чтобы исключить такие вещи, как элементы навигации.

19.11.2008 10:05

Это так называемые сниппеты.

Google использует проприетарные (и, возможно, запатентованный) методы для сбора этой информации, поэтому однозначного ответа нет.

Как вы предлагаете, они будут использовать метаописание, если оно есть. (Как установить метаинформацию в помощь Google.)

Они также будут учитывать запросы авторов страниц на включение фрагментов НЕТ. (Как запретить Google отображать сниппеты) Вы, вероятно, должны уважать и это (также как robots.txt, конечно.)

Возможно, вам повезет с существующими пакетами автоматического суммирования, такими как ОТС.

19.11.2008 16:09