Как очистить элемент списка без имени класса?

Я делаю веб-скраппер для Книгохранилище и столкнулся с проблемой html-элементов сайта. На странице книги есть раздел информация о продукте, и мне нужно взять каждый элемент из списка. Однако некоторые элементы, а не все, например Язык, имеют эту структуру. образец изображения. Как можно получить этот элемент?

Моя незавершенная работа заключается в следующем. Заранее большое спасибо

import bs4
from urllib.request import urlopen


book_isbn = ("9781399703994")
book_urls = "https://www.bookdepository.com/Enid-Blytons-Christmas-Tales-Enid-Blyton/" + book_isbn

source = urlopen(book_urls).read()
soup = bs4.BeautifulSoup(source,'lxml')
book_description = soup.find('div', class_='item-excerpt trunc')
book_title = soup.find('h1').text
book_info = soup.find('ul', class_='biblio-info')
book_pages = book_info.find('span', itemprop='numberOfPages').text
book_ibsn = book_info.find('span', itemprop='isbn').text
book_publication_date = book_info.find('span', itemprop='datePublished').text
book_publisher = book_info.find('span', itemprop='name').text
book_author = soup.find('span', itemprop = "author").text
book_cover = soup.find('div', class_='item-img-content').img
book_language = book_info.find_next(string='Language',)
book_format = book_info.find_all(string='Format', )




print('Number of Pages: ' + book_pages.strip())
print('ISBN Number: ' + book_ibsn)
print('Publication Date: ' + book_publication_date)
print('Publisher Name: ' + book_publisher.strip())
print('Author: '+ book_author.strip())
print(book_cover)
print(book_language)
print(book_format)

python html web-scraping beautifulsoup

07.05.2022 14:45

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

Перейти к ответу Данный вопрос помечен как решенный

Ответы 3

Ответ принят как подходящий

Чтобы получить соответствующий <span> вашему ярлыку, вы можете использовать:

book_info.find_next(string='Language').find_next('span').get_text(strip=True)

Более общий подход для получения всех этих сведений о продукте может быть следующим:

import bs4, re
from urllib.request import urlopen

book_isbn = ("9781399703994")
book_urls = "https://www.bookdepository.com/Enid-Blytons-Christmas-Tales-Enid-Blyton/" + book_isbn

source = urlopen(book_urls).read()
soup = bs4.BeautifulSoup(source,'lxml')

book = {
    'description':soup.find('div', class_='item-excerpt trunc').get_text(strip=True),
    'title':soup.find('h1').text
}

book.update({e.label.text.strip():re.sub('\s+', ' ',e.span.text).strip() for e in soup.select('.biblio-info li')})
book

Выход:

{'description': "'A breathtaking memoir...I was so moved by this book.' Oprah'It is startlingly honest and, at times, a jaw-dropping read, charting her rise from poverty and abuse to becoming the first African-American to win the triple crown of an Oscar, Emmy and Tony for acting.' BBC NewsTHE DEEPLY PERSONAL, BRUTALLY HONEST ACCOUNT OF VIOLA'S INSPIRING LIFEIn my book, you will meet a little girl named Viola who ran from her past until she made a life changing decision to stop running forever.This is my story, from a crumbling apartment in Central Falls, Rhode Island, to the stage in New York City, and beyond. This is the path I took to finding my purpose and my strength, but also to finding my voice in a world that didn't always see me.As I wrote Finding Me, my eyes were open to the truth of how our stories are often not given close examination. They are bogarted, reinvented to fit into a crazy, competitive, judgmental world. So I wrote this for anyone who is searching for a way to understand and overcome a complicated past, let go of shame, and find acceptance. For anyone who needs reminding that a life worth living can only be born from radical honesty and the courage to shed facades and be...you.Finding Me is a deep reflection on my past and a promise for my future. My hope is that my story will inspire you to light up your own life with creative expression and rediscover who you were before the world put a label on you.show more",
 'title': 'Finding Me : A Memoir - THE INSTANT SUNDAY TIMES BESTSELLER',
 'Format': 'Hardback | 304 pages',
 'Dimensions': '160 x 238 x 38mm | 520g',
 'Publication date': '26 Apr 2022',
 'Publisher': 'Hodder & Stoughton',
 'Imprint': 'Coronet Books',
 'Publication City/Country': 'London, United Kingdom',
 'Language': 'English',
 'ISBN10': '1399703994',
 'ISBN13': '9781399703994',
 'Bestsellers rank': '31'}

07.05.2022 17:22

Вы можете проверить, соответствует ли текст метки языку, а затем распечатать текст. Я также добавил лучший подход к анализу раздела сведений о продукте за одну итерацию.

Проверьте код, указанный ниже: -

import bs4
from urllib.request import urlopen
import re

book_isbn = ("9781399703994")
book_urls = "https://www.bookdepository.com/Enid-Blytons-Christmas-Tales-Enid-Blyton/" + book_isbn

source = urlopen(book_urls).read()
soup = bs4.BeautifulSoup(source,'lxml')

book_info = soup.find('ul', class_='biblio-info')
lis=book_info.find_all('li')

# Check if the label name is Language and the print the span text
for val in lis:
    label=val.find('label')
    if label.text.strip()=='Language':
        span=val.find('span')
        span_text=(span.text.strip())
        print('Language--> '+span_text)

# A better approach to get all the Name and value pairs in the Product details section in a single iteration
for val in lis:
    label=val.find('label')
    span=val.find('span')
    span_text=(span.text.strip())
    modified_text = re.sub('\n', ' ', span_text)
    modified_text = re.sub(' +', ' ', modified_text)
    print(label.text.strip()+'--> '+modified_text)

07.05.2022 17:28

Вы можете получить нужные данные из части деталей, используя селекторы css.

import bs4
from urllib.request import urlopen
import re

book_isbn = ("9781399703994")
book_urls = "https://www.bookdepository.com/Enid-Blytons-Christmas-Tales-Enid-Blyton/" + book_isbn
#print(book_urls)
source = urlopen(book_urls).read()
soup = bs4.BeautifulSoup(source,'lxml')
book_description = soup.find('div', class_='item-excerpt trunc')
book_title = soup.find('h1').text
book_info = soup.find('ul', class_='biblio-info')
book_pages = book_info.find('span', itemprop='numberOfPages').text
book_ibsn = book_info.find('span', itemprop='isbn').text
book_publication_date = book_info.find('span', itemprop='datePublished').text
book_publisher = book_info.find('span', itemprop='name').text
book_author = soup.find('span', itemprop = "author").text
book_cover = soup.find('div', class_='item-img-content').img.get('src')
book_language =soup.select_one('.biblio-info > li:nth-child(7) span').get_text(strip=True)
book_format = soup.select_one('.biblio-info > li:nth-child(1) span').get_text(strip=True)
book_format = re.sub(r'\s+', ' ',book_format).replace('|','')


print('Number of Pages: ' + book_pages.strip())
print('ISBN Number: ' + book_ibsn)
print('Publication Date: ' + book_publication_date)
print('Publisher Name: ' + book_publisher.strip())
print('Author: '+ book_author.strip())
print(book_cover)
print(book_language)
print(book_format)

Выход:

Number of Pages: 304 pages
ISBN Number: 9781399703994
Publication Date: 26 Apr 2022
Publisher Name: Hodder & Stoughton
Author: Viola Davis
https://d1w7fb2mkkr3kw.cloudfront.net/assets/images/book/lrg/9781/3997/9781399703994.jpg
English
Hardback 304 pages

07.05.2022 17:42

Другие вопросы по теме

Как перебрать набор из двух списков и отобразить все строки в HTML?

Как использовать селектор css, который ссылается на элемент вне теневого корня

Всегда ли выполняется функция, привязанная к кнопке, или я ошибся?

Почему не работает средство выбора даты Bootstrap?

Веб-страница в том же ряду изображений

Необязательные параметры запроса Spring Boot по умолчанию имеют значение null вместо пустой строки

Устранение повторяющихся правил SCSS

Сохранить значения формы в localStorage

Как лучше всего получить целевую подстроку через регулярное выражение в сценарии bash

Как вводить уникальные буквы только в текстовом поле ввода в html или реагировать?

Как очистить элемент списка без имени класса?

Ответы 3

Другие вопросы по теме

Похожие вопросы