Web Scraper продолжает повторять первую страницу вместо нескольких страниц

У меня есть веб-скребок, над которым я пытался работать и совершенствовать. Я уже просил помочь с чем-то еще об этом коде, но на этот раз я еще не нашел ничего полезного для этой проблемы.

Я пытался перестроить код в соответствии с некоторыми учебниками в Интернете, но не так много работает, я на грани того, чтобы начать что-то еще, так как не хочу тратить слишком много времени, если это не сработает.

my_url = "https://www.vuokraovi.com/vuokra-asunnot/Uusimaa"
uClient = uReq(my_url)
page_html = uClient.read()
page_soup = soup(page_html, "html.parser")


lastpage = int(pages[0].findAll("li")[7].text)

pages = list(range(1, int(lastpage) + 1))
for page in pages:
    my_url = "https://www.vuokraovi.com/vuokra-asunnot/Uusimaa?page=%s&pageType = " %(page)
    containers = page_soup.findAll("div", {"class":"list-item-container"})

    print("Processing page: %s" %(page))

    for container in containers:
        try:
            Vuokranantaja = container.findAll("div", {"class":"hidden-xs col-sm-3 col-4"})[0].img["alt"]
        except TypeError:
            Vuokranantaja = container.findAll("div", {"class":"hidden-xs col-sm-3 col-4"})[0].p.strong.text.strip()
        except KeyError:
            Vuokranantaja = container.findAll("div", {"class":"hidden-xs col-sm-3 col-4"})[0].a["href"]


        Huoneistot = container.findAll("li", {"class":"semi-bold"})[1].text

        Talotyyppi = container.findAll("li", {"class":"semi-bold"})[0].text

        Sijainti = container.findAll("div", {"class":"hidden-xs col-sm-4 col-3"})[0].findAll("span", {"class":"address"})[0].text.strip().replace("\r", "").replace("\n", "").replace(" ", "").replace(",", ", ")
        try:
            Vapautuu = container.findAll("div", {"class":"hidden-xs col-sm-4 col-3"})[0].findAll("span", {"class":"showing-lease-container hidden-xs"})[0].li.text
        except AttributeError:
            Vapautuu = "Ei Tiedossa"
        Vuokra = container.findAll("li", {"class":"rent"})[0].text.strip()

        print("Kohdetta Vuokraa:", Vuokranantaja)
        print("Huoneistot:", Huoneistot)
        print("Talotyyppi ja Koko:", Talotyyppi)
        print("Sijainti:", Sijainti)
        print("Vapautuu:", Vapautuu)
        print("Vuokra:", Vuokra)
        print("")

        count += 1
        f.write(Vuokranantaja.replace(",", " |") + "," + Huoneistot.replace(",", " - ") + "," + Talotyyppi.replace(",", ".") + "," + Sijainti.replace(",", " -") + "," + Vapautuu + "," + Vuokra.replace(",", ".") + "\n")

f.close() 

Желаемый результат будет заключаться в том, чтобы код выполнял парсинг, как он это делает, но на нескольких страницах, но он парсит только на первой странице столько раз, сколько lastpage равно.

Стоит ли изучать PHP в 2023-2024 годах?
Стоит ли изучать PHP в 2023-2024 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
1
0
80
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Ну, в вашем цикле довольно очевидная ошибка, вы не обновляете содержимое переменной page_soup на каждой итерации.

Должно быть:

for page in pages:
    my_url = "https://www.vuokraovi.com/vuokra-asunnot/Uusimaa?page=%s&pageType = " %(page)

    uClient = uReq(my_url)
    page_html = uClient.read()
    page_soup = soup(page_html, "html.parser")

    ...

Теперь он работает, но первая страница по-прежнему повторяется дважды, есть идеи, как это исправить, и спасибо за ваше время.

Martin T 22.05.2019 12:46

Другие вопросы по теме