Scrapy Splash не может получить данные сайта React

Мне нужно очистить сайт это. Сделано в React, поэтому выглядит. Затем я попытался извлечь данные с помощью scrapy-splash. Мне нужен, например, элемент "a" с классом shelf-product-name. Но ответ - пустой массив. Я использовал аргумент wait примерно за 5 секунд. Но я получаю только пустой массив.

def start_requests(self):
        yield SplashRequest(
            url='https://www.jumbo.cl/lacteos-y-bebidas-vegetales/leches-blancas?page=6',
            callback=self.parse,
            args = {'wait':5}
        )

def parse(self,response):
        print(response.css("a.shelf-product-name"))

python reactjs scrapy scrapy-splash

29.04.2019 05:54

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

514

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

На самом деле нет необходимости использовать Scrapy Splash, потому что все необходимые данные хранятся внутри тега <script> необработанного html-ответа в виде данных в формате json:

import scrapy
from scrapy.crawler import CrawlerProcess
import json

class JumboCLSpider(scrapy.Spider):
    name = "JumboCl"
    start_urls = ["https://www.jumbo.cl/lacteos-y-bebidas-vegetales/leches-blancas?page=6"]

    def parse(self,response):
        script = [script for script in response.css("script::text") if "window.__renderData" in script.extract()]
        if script:
            script = script[0]
        data = script.extract().split("window.__renderData = ")[-1]
        json_data = json.loads(data[:-1])
        for plp in json_data["plp"]["plp_products"]:
            for product in plp["data"]:
                #yield {"productName":product["productName"]} # data from css:  a.shelf-product-name
                yield product

if __name__ == "__main__":
    c = CrawlerProcess({'USER_AGENT':'Mozilla/5.0'})
    c.crawl(JumboCLSpider)
    c.start()

29.04.2019 16:11

Другие вопросы по теме

React useContext выдает неверную ошибку вызова ловушки

Неверный реквизит `cookies` при запуске теста с реагирующими куки-файлами

Реагировать на перевод react-localize-redux внутри свойств HTMLelement

Как узнать в реагирующем компоненте, реквизит является узлом или нет?

Функция onClick срабатывает после двойного щелчка

Реагировать на оператор if на карте внутри тега JSX

Массив отсортирован, но React не отображается в отсортированном порядке

Material-ui: получить метку из компонента Chip внутри обработчика onClick()

Кнопка onSubmit в неопределенном состоянии

Как Jest протестировать использование lodash.get в компоненте React?

Scrapy Splash не может получить данные сайта React

Ответы 1

Другие вопросы по теме

Похожие вопросы