Запуск Scrapy несколько раз по одному и тому же URL

Я хотел бы просканировать определенный URL-адрес, который при каждом вызове возвращает случайный ответ. Приведенный ниже код возвращает то, что я хочу, но я хотел бы запускать его в течение длительного времени, чтобы я мог использовать данные для приложения NLP. Этот код запускается только один раз с scrapy crawl the, хотя я ожидаю, что он будет запускаться больше из-за последнего оператора if.

Команда запуска Unix - это то, что я ищу? Я попробовал, но это показалось мне немного медленным. Если бы мне пришлось использовать команду запуска, было бы хорошей практикой открывать много вкладок в терминале и запускать ту же команду с префиксом запуска, или это просто снижает скорость?

class TheSpider(scrapy.Spider):
name = 'the'
allowed_domains = ['https://websiteiwannacrawl.com']
start_urls = ['https://websiteiwannacrawl.com']

def parse(self, response):
    info = {}
    info['text'] = response.css('.pd-text').extract()
    yield info

    next_page = 'https://websiteiwannacrawl.com'
    if next_page is not None:
        yield scrapy.Request(next_page, callback=self.parse)

python web-scraping scrapy web-crawler

14.04.2018 23:55

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

1 261

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

dont_filter
indicates that this request should not be filtered by the scheduler. This is used when you want to perform an identical request multiple times, to ignore the duplicates filter. Use it with care, or you will get into crawling loops. Default to False

Вы должны добавить это в свой запрос

yield scrapy.Request(next_page, dont_filter=True)

это не к вашему вопросу, но для callback=self.parse прочтите Метод синтаксического анализа

15.04.2018 04:02

Другие вопросы по теме

React - Как решить ошибку Module Parse Failed: вам может потребоваться соответствующий загрузчик для обработки этого типа файла

Selenium - идентификация элемента HTML без идентификатора или имени класса CSS

Window.location ... выполняется последний javascript

Веб-парсинг с помощью rvest: фильтрация через пагинацию

Не могу войти на веб-страницу с помощью Python

Сохранение скопированных данных в виде файла CSV в других ОС, но не в Windows

Beautifulsoup текст из тегов внутри тегов

Очистка iframe с использованием Selenium

Очистка данных с помощью Python lxml возвращает значение блокировщика рекламы

FileNotFoundError: [Errno 2]: переменные имена файлов с помощью open ()

Запуск Scrapy несколько раз по одному и тому же URL

Ответы 1

Другие вопросы по теме

Похожие вопросы