Я хочу очистить слайды с https://slideshare.net, но когда я запускаю цикл for на всех слайдах, загружается только первый слайд, а другой слайд представляет собой просто пустой файл JPF. Я не знаю, почему. Я также пытался удалить каждое изображение отдельно, загружая только первый слайд, остальные пустые.
Я ожидал, что у меня будут все слайды, а затем я смогу поместить их в различные форматы, такие как pdf, zip и ppt.
что ты использовал для скрапа? Где ваш код? возможно, странице (или JavaScript) требуется время для создания объекта. Если вы запустите его с помощью Selenium, вам, возможно, придется запустить его без --headless, чтобы увидеть, что делает браузер.






Вы можете использовать этот пример, чтобы получить URL-адреса всех слайдов в формате jpg (затем вы можете преобразовать эти JPG в PDF или что-то еще):
import json
import requests
from bs4 import BeautifulSoup
# url of slideshow:
url = "https://www.slideshare.net/slideshow/2024-state-of-marketing-report-by-hubspot/266319371"
# url = "https://www.slideshare.net/slideshow/image-cryptography-using-rsa-algorithm/249768975"
soup = BeautifulSoup(requests.get(url).content, "html.parser")
data = json.loads(soup.select_one("#__NEXT_DATA__").text)
slides = data["props"]["pageProps"]["slideshow"]["slides"]
img_url = (
slides["host"]
+ "/"
+ slides["imageLocation"]
+ "/"
+ str(slides["imageSizes"][-1]["quality"])
+ "/"
+ slides["title"]
+ "-{}-"
+ str(slides["imageSizes"][-1]["width"])
+ ".jpg"
)
for i in range(1, data["props"]["pageProps"]["slideshow"]["totalSlides"] + 1):
print(img_url.format(i))
Распечатки:
https://image.slidesharecdn.com/1707826910254-240215090210-009c7a2b/75/2024-State-of-Marketing-Report-by-Hubspot-1-2048.jpg
https://image.slidesharecdn.com/1707826910254-240215090210-009c7a2b/75/2024-State-of-Marketing-Report-by-Hubspot-2-2048.jpg
...
https://image.slidesharecdn.com/1707826910254-240215090210-009c7a2b/75/2024-State-of-Marketing-Report-by-Hubspot-42-2048.jpg
https://image.slidesharecdn.com/1707826910254-240215090210-009c7a2b/75/2024-State-of-Marketing-Report-by-Hubspot-43-2048.jpg
Большое вам спасибо, сэр. Это действительно очень много значит для меня.
Предоставьте достаточно кода, чтобы другие могли лучше понять или воспроизвести проблему.