Удаление слайдов из SlideShare

Я хочу очистить слайды с https://slideshare.net, но когда я запускаю цикл for на всех слайдах, загружается только первый слайд, а другой слайд представляет собой просто пустой файл JPF. Я не знаю, почему. Я также пытался удалить каждое изображение отдельно, загружая только первый слайд, остальные пустые.

Я ожидал, что у меня будут все слайды, а затем я смогу поместить их в различные форматы, такие как pdf, zip и ppt.

Предоставьте достаточно кода, чтобы другие могли лучше понять или воспроизвести проблему.

Community 17.06.2024 01:14

что ты использовал для скрапа? Где ваш код? возможно, странице (или JavaScript) требуется время для создания объекта. Если вы запустите его с помощью Selenium, вам, возможно, придется запустить его без --headless, чтобы увидеть, что делает браузер.

furas 17.06.2024 02:39
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
1
2
54
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Вы можете использовать этот пример, чтобы получить URL-адреса всех слайдов в формате jpg (затем вы можете преобразовать эти JPG в PDF или что-то еще):

import json

import requests
from bs4 import BeautifulSoup

# url of slideshow:
url = "https://www.slideshare.net/slideshow/2024-state-of-marketing-report-by-hubspot/266319371"
# url = "https://www.slideshare.net/slideshow/image-cryptography-using-rsa-algorithm/249768975"

soup = BeautifulSoup(requests.get(url).content, "html.parser")
data = json.loads(soup.select_one("#__NEXT_DATA__").text)

slides = data["props"]["pageProps"]["slideshow"]["slides"]

img_url = (
    slides["host"]
    + "/"
    + slides["imageLocation"]
    + "/"
    + str(slides["imageSizes"][-1]["quality"])
    + "/"
    + slides["title"]
    + "-{}-"
    + str(slides["imageSizes"][-1]["width"])
    + ".jpg"
)

for i in range(1, data["props"]["pageProps"]["slideshow"]["totalSlides"] + 1):
    print(img_url.format(i))

Распечатки:

https://image.slidesharecdn.com/1707826910254-240215090210-009c7a2b/75/2024-State-of-Marketing-Report-by-Hubspot-1-2048.jpg
https://image.slidesharecdn.com/1707826910254-240215090210-009c7a2b/75/2024-State-of-Marketing-Report-by-Hubspot-2-2048.jpg

...

https://image.slidesharecdn.com/1707826910254-240215090210-009c7a2b/75/2024-State-of-Marketing-Report-by-Hubspot-42-2048.jpg
https://image.slidesharecdn.com/1707826910254-240215090210-009c7a2b/75/2024-State-of-Marketing-Report-by-Hubspot-43-2048.jpg

Большое вам спасибо, сэр. Это действительно очень много значит для меня.

Waqas Ikram 18.06.2024 21:00

Другие вопросы по теме