Неужели все эти типы сайтов просто незаконно очищают Google или другую поисковую систему?
Насколько я могу судить, это не «легальный» способ получить эти данные для коммерческого сайта .. Yahoo! api (http://developer.yahoo.com/search/siteexplorer/V1/inlinkData.html) предназначен только для некоммерческого использования, Yahoo! Boss не разрешает автоматические запросы и т. д.
Есть идеи?





Например, если вы хотите найти все ссылки на главную страницу Google, выполните поиск
link:http://www.google.com
Поэтому, если вы хотите найти все входящие ссылки, вы можете просто пройтись по дереву своего веб-сайта и создать URL-адрес для каждого найденного элемента. Затем запросите Google:
link:URL
И вы получите коллекцию всех ссылок, которые Google имеет с других веб-сайтов на ваш веб-сайт.
Что касается законности такого сбора урожая, я уверен, что извлекать из него прибыль не совсем законно, но это никого раньше не останавливало, не так ли?
(Так что я бы не стал задаваться вопросом, сделали они это или нет. Просто предположите, что они делают.)
Я не знаю, что делает hubspot, но если вы хотите узнать, какие сайты ссылаются на ваш сайт, и у вас нет оборудования для сканирования Интернета, вы можете отслеживать HTTP_REFERER посетителей вашего сайта. сайт. Так, например, Google Analytics (насколько мне известно) может сказать вам, откуда приходят ваши посетители. Это не на 100% надежно, поскольку не все браузеры устанавливают его, особенно в «Режиме конфиденциальности», но вам нужен только один посетитель для каждой ссылки, чтобы знать, что она существует!
Это часто достигается путем встраивания сценария на каждую из ваших веб-страниц (часто в общий верхний или нижний колонтитул). Например, если вы исследуете источник страницы, которую в данный момент читаете, вы найдете (прямо внизу) скрипт, который сообщает в Google информацию о вашем посещении.
Теперь это не скажет вам, есть ли там ссылки, которые никто никогда не использовал для перехода на ваш сайт, но давайте посмотрим правде в глаза, они намного менее интересны, чем те, которые люди на самом деле используют.
Я думаю, что это совершенно верно - глядя на примеры снимков экрана Hubspot, вы можете увидеть, что каждая отслеживаемая входящая ссылка имела с нее одного посетителя. Чтобы пояснить, данные реферера могут быть получены из журналов или через что-то встроенное в ваш сайт.
Они могли просто сканировать Интернет ... такие сайты, как 80legs.com, упрощают задачу.