Я пытаюсь очистить https://www.rule34video.com/
с помощью Python
Сначала с простым request.get()
получалось, однако последующие попытки на следующий день не увенчались успехом. Я разрешил Windows обновляться между ними. Не уверен, что это причина. Я попробовал включить заголовки:
import requests
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
}
print(requests.get(url, headers=headers).text)
Но вот что я получаю:
requests.exceptions.ConnectionError: HTTPSConnectionPool(host='rule34video.com', port=443): Max retries exceeded with url: / (Caused by NewConnectionError('<urllib3.connection.HTTPSConnection object at 0x0000025316C12430>: Failed to establish a new connection: [WinError 10060] A connection attempt failed because the connected party did not properly respond after a period of time, or established connection failed because connected host has failed to respond'))
Затем я попробовал использовать селен в качестве последнего средства, однако результаты были такими же: он вообще не смог получить доступ к веб-сайту.
Это то, что я вижу на загруженной html-странице.
502 Bad Gateway
ProtocolException('Server connection to (\'rule34video.com\', 443) failed: Error connecting to "rule34video.com": [WinError 10060] A connection attempt failed because the connected party did not properly respond after a period of time, or established connection failed because connected host has failed to respond')
Я почти уверен, что мой IP-адрес занесен в черный список, однако, когда я использую Google Chrome для посещения https://rule34video.com/
, он загружается без проблем.
Мой вопрос:
Веб-сайты имеют разные способы обнаружения парсеров и ботов.
После поиска я могу передать эту защиту, используя необнаруженный режим из платформы seleniumbase.
Вы пробовали селен с драйвером Chrome, а НЕ использовали безголовый режим? Если это не сработает, вам, вероятно, придется использовать Maxim_window_size(), обратитесь к этому ответу: stackoverflow.com/a/74098738