Извлечь идентификатор свойства из атрибута с помощью xpath

Я пытался извлечь идентификатор свойства со следующего веб-сайта:
Но какую бы комбинацию я ни пытался использовать, я не могу ее восстановить.

Идентификатор свойства находится здесь:

<div class = "corner-ribbon">
   <span class = "ribbon-green">NEW!</span>
   </div>
<a href = "Details?id=182519" title = "view this property">
            <img class = "img-responsive img-prop" src = "https://kwsadocuments.blob.core.windows.net/devblob/24c21aa4-ae17-41d1-8719-5abf8f24c766.jpg" alt = "Living close to Nature">
        </a>

И вот что я пробовал до сих пор:

response.xpath('//a[@title = "view this property"]/@href').getall(),
response.xpath('//*[@id = "divListingResults"]/div/div/a/@href').getall(),
response.xpath('//*[@class = "corner-ribbon"]/a/@href').getall()

Любое предложение о том, что я могу делать неправильно? Заранее спасибо!

python html xpath web-scraping scrapy

13.12.2020 13:48

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

374

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Сначала вам нужно понять, как работает эта страница. Он загружает свойства с помощью Javascript (проверьте исходный код страницы в браузере с помощью Ctrl+U) и (как вы знаете) Scrapy не может обрабатывать Javascript.

Но если вы проверите исходный код страницы, вы обнаружите, что вся необходимая вам информация «скрыта» внутри тега <input id = "propertyJson" name = "ListingResults.JsonResult" >. Итак, все, что вам нужно, чтобы получить это value и обработать его с помощью модуля json:

import scrapy
import json

class PropertySpider(scrapy.Spider):
    name = 'property_spider'
    start_urls = ['https://www.kwsouthafrica.co.za/Property/RouteUrl?ids=P22%2C&ForSale=ForSale&PropertyTypes=&Beds=Any&Baths=Any&MinPrice=Any&MaxPrice=Any']

    def parse(self, response):
        property_json = response.xpath('//input[@id = "propertyJson"]/@value').get()
        # with open('Samples/Properties.json', 'w', encoding='utf-8') as f:
        #     f.write(property_json)
        property_data = json.loads(property_json)
        for property in property_data:
            property_id = property['Id']
            property_title = property['Title']
            print(property_id)

        print(property_data)

Я действительно пробовал это, однако, когда я пытаюсь использовать property_json = response.xpath('//input[@id = "propertyJson"]/@value').get(), property_json пуст. И я не уверен, почему. @гангабасс

— 13.12.2020 14:47

Я не знаю, что не так на вашей стороне, но приведенный выше код (см. обновленную часть) отлично работает для меня.

— 13.12.2020 15:14

Раньше у меня был неправильный стартовый URL-адрес, теперь он работает как шарм! Большое спасибо! @гангабасс

— 13.12.2020 15:30

13.12.2020 14:44