У меня есть список URL-адресов, и я пытаюсь собрать их «описания». Под описанием я подразумеваю то, что появляется, например, если вы искали ссылку в Google. Например, http://stackoverflow.com "> Google: http://stackoverflow.com показывает описание как
A language-independent collaboratively edited question and answer site for programmers. Questions and answers displayed by user votes and tags.
Это данные, которые я пытаюсь собрать для имеющихся у меня URL-адресов.
Я попытался разобрать метаописания URL, однако у большинства из них отсутствует метаописание (но Google и другим поисковым системам каким-то образом удается получить описание).
Есть идеи? Должен ли я просто "гуглить" каждую ссылку и очищать данные? У меня такое чувство, что Google это не понравится ...
Спасибо ребята.
Рекомендуем закрывать как «Теги не такие уж крутые», как только эта опция закрытия станет доступной с помощью stackoverflow. ;-D
Ничего страшного ... «не» будет потеряно, в то время как «теги классные» будут увеличены.





У разных поисковых систем разные алгоритмы вывода описания со страницы, если / когда им не хватает метатега description. Некоторые игнорируют тег, даже если он там есть.
Если вам нужно описание, которое есть у Google, наиболее точным способом его получения будет его очистка. В противном случае вы можете написать свой собственный или поискать в Интернете код, который это делает.
Вы можете проверить AboutUs.org (например, http://www.aboutus.org/StackOverflow.com). Но маловероятно, что на сайте будет страница о нас и не будет метаописания.
Некоторая информация, которая может объяснить, как это делает Google:
Я не знаком с API Google, но, возможно, есть официальный способ получить такую информацию.
Я отправил сообщение в их группу, но не получил ответа.
Интересно. одни источники лучше других.
Для "audiotuts.com" Google имеет худшее описание, чем AboutUs.com.
Nov 18th in General by Joel Falconer · 1. Recently, an AUDIOTUTS reader asked me about creative process. While this is a topic that can’t be made into a ...
AboutUs.com:
AUDIOTUTS is a blog/tutorial site for musicians, producers and audio junkies! It is the sister site of the popular PSDTUTS, VECTORTUTS and NETTUTS.
Я ненавижу подобные проблемы ... они должны быть тривиальными, но это не так!
Если вы можете предположить, что контент на английском языке, вы можете сначала поискать метаописание, а если это не сработает, вы можете поискать первые два или три последовательности слов, похожие на предложения.
Продукт, над которым я работал, искал первые P или DIV, содержащие более одной последовательности из> n «слов», разделенных точками. В качестве итогового абзаца он будет использовать две или три последовательности, похожие на предложения, до x всего слов. Это не было 100% точным, но достаточно хорошим для среднего случая. Количество слов было изменено несколько раз, чтобы исключить такие вещи, как элементы навигации.
Это так называемые сниппеты.
Google использует проприетарные (и, возможно, запатентованный) методы для сбора этой информации, поэтому однозначного ответа нет.
Как вы предлагаете, они будут использовать метаописание, если оно есть. (Как установить метаинформацию в помощь Google.)
Они также будут учитывать запросы авторов страниц на включение фрагментов НЕТ. (Как запретить Google отображать сниппеты) Вы, вероятно, должны уважать и это (также как robots.txt, конечно.)
Возможно, вам повезет с существующими пакетами автоматического суммирования, такими как ОТС.
Кен - пожалуйста, перестань менять теги. Этот вопрос явно касается моих замечательных тегов.