Итерация формы с помощью Scrapy

Мне нужно повторить форму, заполнив ее разными вариантами. Я уже могу сканировать данные/царапать, используя Scrapy и Python для одного набора переменных, но мне нужно перебрать их список.

В настоящее время мой паук может войти в систему, заполнить форму и царапины данные.

Для входа и заполнения формы я использую:

class FormSpider(CrawlSpider):
    name= 'formSpider'
    allow_domain = ['example.org']
    start_urls = ['https://www.example.org/en-en/']

    age = '35'
    days = '21'
    S1 = 'abc'
    S2 = 'cde'
    S3 = 'efg'
    S4 = 'hij'
 
    def parse(self, response):
        token = response.xpath('//*[@name = "__VIEWSTATE"]/@value').extract_first()
        return FormRequest.from_response(response,
                                         formdata = {'__VIEWSTATE': token,
                                                   'Password': 'XXXXX',
                                                   'UserName': 'XXXXX'},
                                         callback=self.scrape_main)

И я использую этот код для заполнения формы:

    def parse_transfer(self, response):
            return FormRequest.from_response(response,
                                           formdata = {"Age" : self.age,
                                                     "Days" : self.days,
                                                     "Skill_1" : self.S1,
                                                     "Skill_2" : self.S2,
                                                     "Skill_3" : self.S2,
                                                     "Skill4" : self.S3                                                     
                                                     "butSearch" : "Search"},
                                           callback=self.parse_item)

Затем я царапать данные и экспортирую их как CSV.

Теперь мне нужно повторить входные данные из формы. Я думал об использовании списка для каждой переменной, чтобы каждый раз менять форму (мне нужно только определенное количество комбинаций).

    age = ['35','36','37','38']
    days = ['10','20','30','40']
    S1 = ['abc','def','ghi','jkl']
    S2 = ['cde','qwe','rty','yui'] 
    S3 = ['efg','asd','dfg','ghj']
    S4 = ['hij','bgt','nhy','mju']

Итак, я могу перебирать форму следующим образом:

age[0],days[0],S1[0],S2[0],S3[0],S4[0]... age[1],days[1]... and so on

Любая рекомендация? Я открыт для разных вариантов (не только списков), чтобы избежать создания нескольких пауков.

ОБНОВИТЬ

Это окончательный код:

    def parse_transfer(self, response):
            return FormRequest.from_response(response,
                                           formdata = {"Age" : self.age,
                                                     "Days" : self.days,
                                                     "Skill_1" : self.S1,
                                                     "Skill_2" : self.S2,
                                                     "Skill_3" : self.S2,
                                                     "Skill4" : self.S3                                                     
                                                     "butSearch" : "Search"},
                                           dont_filter=True,
                                           callback=self.parse_item)
    def parse_item(self, response):
        open_in_browser(response)
        # it opens all the websites after submitting the form :)

python forms loops scrapy iteration

02.07.2019 08:28

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

453

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Трудно понять, для чего предназначен ваш текущий parse_transfer(), потому что у вашего FormSpider нет self.skill_1, который мы можем видеть. Также вам может не понадобиться наследовать от CrawlSpider здесь. И замените returns на yields.

Для итерации формы я рекомендую заменить имеющиеся у вас атрибуты паука списками, которые вы будете использовать для итерации.

Затем вставьте parse_transfer()

def parse_transfer(self, response):
    for i in range(len(age)):
        yield FormRequest.from_response(response,
                                       formdata = {"Age" : self.age[i],
                                                 "Days" : self.days[i],
                                                 "Skill_1" : self.S1[i],
                                                 "Skill_2" : self.S2[i],
                                                 "Skill_3" : self.S3[i],
                                                 "Skill_4" : self.S4[i]
                                                 "butSearch" : "Search"},
                                       callback=self.parse_item)

Однако это может быть нежизнеспособным решением, исходя из того, как веб-сайт принимает запросы.

Ты прав. Навыка 1 там быть не должно (отредактировано). попробую ваш вариант. Спасибо.

— 03.07.2019 01:37

Супер... Предложения работают отлично. Поскольку я начинаю со Scrapy, можете ли вы объяснить мне, как в этом случае работают вернуть и урожай?

— 03.07.2019 12:55

Хорошо, просматриваем результаты... Итерация работает. Но только последняя итерация передает запрос в Def parse_item(self, response). Любое предложение?

— 04.07.2019 05:51

Отлично! Я должен добавить dont_filter = True в конце формы request().

— 04.07.2019 07:11

Да, dont_filter необходим, потому что BaseDupeFilter видит отпечаток запроса как идентичный. И yield не уникален для Scrapy, это ключевое слово Python, которое важно знать. stackoverflow.com/questions/231767/…

— 04.07.2019 15:07

02.07.2019 15:04