Мне нужно повторить форму, заполнив ее разными вариантами. Я уже могу сканировать данные/царапать, используя Scrapy и Python для одного набора переменных, но мне нужно перебрать их список.
В настоящее время мой паук может войти в систему, заполнить форму и царапины данные.
Для входа и заполнения формы я использую:
class FormSpider(CrawlSpider):
name= 'formSpider'
allow_domain = ['example.org']
start_urls = ['https://www.example.org/en-en/']
age = '35'
days = '21'
S1 = 'abc'
S2 = 'cde'
S3 = 'efg'
S4 = 'hij'
def parse(self, response):
token = response.xpath('//*[@name = "__VIEWSTATE"]/@value').extract_first()
return FormRequest.from_response(response,
formdata = {'__VIEWSTATE': token,
'Password': 'XXXXX',
'UserName': 'XXXXX'},
callback=self.scrape_main)
И я использую этот код для заполнения формы:
def parse_transfer(self, response):
return FormRequest.from_response(response,
formdata = {"Age" : self.age,
"Days" : self.days,
"Skill_1" : self.S1,
"Skill_2" : self.S2,
"Skill_3" : self.S2,
"Skill4" : self.S3
"butSearch" : "Search"},
callback=self.parse_item)
Затем я царапать данные и экспортирую их как CSV.
Теперь мне нужно повторить входные данные из формы. Я думал об использовании списка для каждой переменной, чтобы каждый раз менять форму (мне нужно только определенное количество комбинаций).
age = ['35','36','37','38']
days = ['10','20','30','40']
S1 = ['abc','def','ghi','jkl']
S2 = ['cde','qwe','rty','yui']
S3 = ['efg','asd','dfg','ghj']
S4 = ['hij','bgt','nhy','mju']
Итак, я могу перебирать форму следующим образом:
age[0],days[0],S1[0],S2[0],S3[0],S4[0]... age[1],days[1]... and so on
Любая рекомендация? Я открыт для разных вариантов (не только списков), чтобы избежать создания нескольких пауков.
ОБНОВИТЬ
Это окончательный код:
def parse_transfer(self, response):
return FormRequest.from_response(response,
formdata = {"Age" : self.age,
"Days" : self.days,
"Skill_1" : self.S1,
"Skill_2" : self.S2,
"Skill_3" : self.S2,
"Skill4" : self.S3
"butSearch" : "Search"},
dont_filter=True,
callback=self.parse_item)
def parse_item(self, response):
open_in_browser(response)
# it opens all the websites after submitting the form :)






Трудно понять, для чего предназначен ваш текущий parse_transfer(), потому что у вашего FormSpider нет self.skill_1, который мы можем видеть. Также вам может не понадобиться наследовать от CrawlSpider здесь. И замените returns на yields.
Для итерации формы я рекомендую заменить имеющиеся у вас атрибуты паука списками, которые вы будете использовать для итерации.
Затем вставьте parse_transfer()
def parse_transfer(self, response):
for i in range(len(age)):
yield FormRequest.from_response(response,
formdata = {"Age" : self.age[i],
"Days" : self.days[i],
"Skill_1" : self.S1[i],
"Skill_2" : self.S2[i],
"Skill_3" : self.S3[i],
"Skill_4" : self.S4[i]
"butSearch" : "Search"},
callback=self.parse_item)
Однако это может быть нежизнеспособным решением, исходя из того, как веб-сайт принимает запросы.
Супер... Предложения работают отлично. Поскольку я начинаю со Scrapy, можете ли вы объяснить мне, как в этом случае работают вернуть и урожай?
Хорошо, просматриваем результаты... Итерация работает. Но только последняя итерация передает запрос в Def parse_item(self, response). Любое предложение?
Отлично! Я должен добавить dont_filter = True в конце формы request().
Да, dont_filter необходим, потому что BaseDupeFilter видит отпечаток запроса как идентичный. И yield не уникален для Scrapy, это ключевое слово Python, которое важно знать. stackoverflow.com/questions/231767/…
Ты прав. Навыка 1 там быть не должно (отредактировано). попробую ваш вариант. Спасибо.