Как получить описание URL

У меня есть список URL-адресов, и я пытаюсь собрать их «описания». Под описанием я подразумеваю то, что появляется, например, если вы искали ссылку в Google. Например, http://stackoverflow.com "> Google: http://stackoverflow.com показывает описание как

A language-independent collaboratively edited question and answer site for programmers. Questions and answers displayed by user votes and tags.

Это данные, которые я пытаюсь собрать для имеющихся у меня URL-адресов.

Я попытался разобрать метаописания URL, однако у большинства из них отсутствует метаописание (но Google и другим поисковым системам каким-то образом удается получить описание).

Есть идеи? Должен ли я просто "гуглить" каждую ссылку и очищать данные? У меня такое чувство, что Google это не понравится ...

Спасибо ребята.

Кен - пожалуйста, перестань менять теги. Этот вопрос явно касается моих замечательных тегов.

John 25.11.2008 10:38

Рекомендуем закрывать как «Теги не такие уж крутые», как только эта опция закрытия станет доступной с помощью stackoverflow. ;-D

Adam Davis 25.11.2008 10:45

Ничего страшного ... «не» будет потеряно, в то время как «теги классные» будут увеличены.

John 25.11.2008 11:07
Стоит ли изучать PHP в 2026-2027 годах?
Стоит ли изучать PHP в 2026-2027 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
3
3
1 258
7

Ответы 7

У разных поисковых систем разные алгоритмы вывода описания со страницы, если / когда им не хватает метатега description. Некоторые игнорируют тег, даже если он там есть.

Если вам нужно описание, которое есть у Google, наиболее точным способом его получения будет его очистка. В противном случае вы можете написать свой собственный или поискать в Интернете код, который это делает.

Вы можете проверить AboutUs.org (например, http://www.aboutus.org/StackOverflow.com). Но маловероятно, что на сайте будет страница о нас и не будет метаописания.

Некоторая информация, которая может объяснить, как это делает Google:

Я не знаком с API Google, но, возможно, есть официальный способ получить такую ​​информацию.

Я отправил сообщение в их группу, но не получил ответа.

John 19.11.2008 09:23

Интересно. одни источники лучше других.

Для "audiotuts.com" Google имеет худшее описание, чем AboutUs.com.

Google

Nov 18th in General by Joel Falconer · 1. Recently, an AUDIOTUTS reader asked me about creative process. While this is a topic that can’t be made into a ...

AboutUs.com:

AUDIOTUTS is a blog/tutorial site for musicians, producers and audio junkies! It is the sister site of the popular PSDTUTS, VECTORTUTS and NETTUTS.

Я ненавижу подобные проблемы ... они должны быть тривиальными, но это не так!

Если вы можете предположить, что контент на английском языке, вы можете сначала поискать метаописание, а если это не сработает, вы можете поискать первые два или три последовательности слов, похожие на предложения.

Продукт, над которым я работал, искал первые P или DIV, содержащие более одной последовательности из> n «слов», разделенных точками. В качестве итогового абзаца он будет использовать две или три последовательности, похожие на предложения, до x всего слов. Это не было 100% точным, но достаточно хорошим для среднего случая. Количество слов было изменено несколько раз, чтобы исключить такие вещи, как элементы навигации.

Это так называемые сниппеты.

Google использует проприетарные (и, возможно, запатентованный) методы для сбора этой информации, поэтому однозначного ответа нет.

Как вы предлагаете, они будут использовать метаописание, если оно есть. (Как установить метаинформацию в помощь Google.)

Они также будут учитывать запросы авторов страниц на включение фрагментов НЕТ. (Как запретить Google отображать сниппеты) Вы, вероятно, должны уважать и это (также как robots.txt, конечно.)

Возможно, вам повезет с существующими пакетами автоматического суммирования, такими как ОТС.

Другие вопросы по теме