Я новичок в scrapy, и это, вероятно, довольно тривиально. В любом случае Я получаю следующую ошибку:
INFO: Ignoring response <404 http://www.geographie.uni
muenchen.de/department/fiona/studium/fuer_studierende/termine/index.html/>:
HTTP status code is not handled or not allowed
Я безуспешно пытался изменить пользовательский агент в файле settings.py. У кого-нибудь есть другая идея? Спасибо
мой код:
import scrapy
class DepartmentSpider(scrapy.Spider):
name = 'department'
start_urls = ['http://www.geographie.uni-muenchen.de/department/fiona/studium/fuer_studierende/termine/index.html/']
def parse(self, response):
for row in response.xpath('//table[2]/tbody'):
yield {
'Art' : row.xpath('td[1]//text()').extract_first(),
'Belegfrist': row.xpath('td[2]//text()').extract_first(),
'Klausur' : row.xpath('td[3]//text()').extract_first(),
}
У вас есть косая черта в конце URL в start_urls
. Без него все должно работать нормально.
Можете ли вы отметить этот ответ как принятый? Вы не делали этого во всех вопросах, которые вы задавали и где кто-то решал ваши проблемы.