Я пытался извлечь идентификатор свойства со следующего веб-сайта:
Но какую бы комбинацию я ни пытался использовать, я не могу ее восстановить.
Идентификатор свойства находится здесь:
<div class = "corner-ribbon">
<span class = "ribbon-green">NEW!</span>
</div>
<a href = "Details?id=182519" title = "view this property">
<img class = "img-responsive img-prop" src = "https://kwsadocuments.blob.core.windows.net/devblob/24c21aa4-ae17-41d1-8719-5abf8f24c766.jpg" alt = "Living close to Nature">
</a>
И вот что я пробовал до сих пор:
response.xpath('//a[@title = "view this property"]/@href').getall(),
response.xpath('//*[@id = "divListingResults"]/div/div/a/@href').getall(),
response.xpath('//*[@class = "corner-ribbon"]/a/@href').getall()
Любое предложение о том, что я могу делать неправильно? Заранее спасибо!
Сначала вам нужно понять, как работает эта страница. Он загружает свойства с помощью Javascript (проверьте исходный код страницы в браузере с помощью Ctrl+U
) и (как вы знаете) Scrapy не может обрабатывать Javascript.
Но если вы проверите исходный код страницы, вы обнаружите, что вся необходимая вам информация «скрыта» внутри тега <input id = "propertyJson" name = "ListingResults.JsonResult" >
. Итак, все, что вам нужно, чтобы получить это value
и обработать его с помощью модуля json
:
import scrapy
import json
class PropertySpider(scrapy.Spider):
name = 'property_spider'
start_urls = ['https://www.kwsouthafrica.co.za/Property/RouteUrl?ids=P22%2C&ForSale=ForSale&PropertyTypes=&Beds=Any&Baths=Any&MinPrice=Any&MaxPrice=Any']
def parse(self, response):
property_json = response.xpath('//input[@id = "propertyJson"]/@value').get()
# with open('Samples/Properties.json', 'w', encoding='utf-8') as f:
# f.write(property_json)
property_data = json.loads(property_json)
for property in property_data:
property_id = property['Id']
property_title = property['Title']
print(property_id)
print(property_data)
Я не знаю, что не так на вашей стороне, но приведенный выше код (см. обновленную часть) отлично работает для меня.
Раньше у меня был неправильный стартовый URL-адрес, теперь он работает как шарм! Большое спасибо! @гангабасс
Я действительно пробовал это, однако, когда я пытаюсь использовать property_json = response.xpath('//input[@id = "propertyJson"]/@value').get(), property_json пуст. И я не уверен, почему. @гангабасс