Подготовка очищенного текста к базе данных mysql в python

Я столкнулся с проблемой подготовки данных для базы данных, так как я делаю это в первый раз
Я скопировал текст из HTML-тегов дт и дд, поэтому я получаю много информации, которая мне нужна и которая мне не нужна.

Мой вывод выглядит так:

{'Plotas:': '49,16 m²', 'Kambarių sk.:': '2', 'Aukštas:': '2', 'Aukštų sk.:': '7', 'Metai:': '2022', 'Pastato tipas:': 'Mūrinis', 'Šildymas:': 'Centrinis kolektorinis', 'Įrengimas:': 'Dalinė apdaila                                                                            NAUDINGA:\nInterjero dizaineriai', 'Pastato energijos suvartojimo klasė:': 'A+', 'Reklama/pasiūlymas:': 'Pasirinkite geriausią internetą namams', 'Ypatybės:': 'Nauja kanalizacija\nNauja elektros instaliacija', 'Papildomos patalpos:': 'Sandėliukas\nVieta automobiliui', 'Apsauga:': 'Šarvuotos durys\nKodinė laiptinės spyna\nVaizdo kameros'}

Мой код выглядит так:

import pandas as pd
from selenium import webdriver
from bs4 import BeautifulSoup
import re
import time
import csv

PATH = 'C:\Program Files (x86)\chromedriver.exe'
driver = webdriver.Chrome(PATH)


for puslapis in range(2, 3):
    driver.get(f'https://www.aruodas.lt/butai/vilniuje/puslapis/{puslapis}')
    response = driver.page_source
    soup = BeautifulSoup(response, 'html.parser')
    blocks = soup.find_all('tr', class_= 'list-row')

    stored_urls = []

    for url in blocks:
        try:
            stored_urls.append(url.a['href'])
        except:
            pass

    for link in stored_urls:
        driver.get(link)
        response = driver.page_source
        soup = BeautifulSoup(response, 'html.parser')

        try:
            #Reikia su RegEx sutvarkyti adresa
            adress = soup.find('h1','obj-header-text').text.strip()
            # print(adress)
        except:
            adress = 'n/a'

            def get_dl(soup):
                keys, values = [], []
                for dl in soup.findAll("dl", {"class": "obj-details"}):
                    for dt in dl.findAll("dt"):
                        keys.append(dt.text.strip())
                    for dd in dl.findAll("dd"):
                        values.append(dd.text.strip())
                return dict(zip(keys, values))


            dl_dict = get_dl(soup)

Вопрос: Как я могу фильтровать и подготавливать только те данные, которые мне нужны... например, мой желаемый результат должен выглядеть так:

Plotas: 49,16 m²
Kambariu_sk: 2
Metai: 2022

Как я должен поместить эту информацию для облегчения передачи в базу данных?

Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
1
0
35
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Я предлагаю вам улучшить свой цикл, чтобы одновременно находить записи dt и dd. Затем добавляйте только те ключи, которые находятся в обязательном списке.

Попробуйте следующий подход:

from selenium import webdriver
from bs4 import BeautifulSoup


def get_dl(soup):
    d = {}
    
    for dl in soup.findAll("dl", {"class": "obj-details"}):
        for el in dl.find_all(["dt", "dd"]):
            if el.name == 'dt':
                key = el.get_text(strip=True)
            elif key in ['Plotas:', 'Kambarių sk.:', 'Metai:']:
                d[key] = el.get_text(strip=True)
        
    return d


PATH = 'C:\Program Files (x86)\chromedriver.exe'
driver = webdriver.Chrome(PATH)
data = []

for puslapis in range(2, 3):
    driver.get(f'https://www.aruodas.lt/butai/vilniuje/puslapis/{puslapis}')
    response = driver.page_source
    soup = BeautifulSoup(response, 'html.parser')
    blocks = soup.find_all('tr', class_= 'list-row')
    stored_urls = []

    for url in blocks:
        try:
            stored_urls.append(url.a['href'])
        except:
            pass

    for link in stored_urls:
        driver.get(link)
        response = driver.page_source
        soup = BeautifulSoup(response, 'html.parser')
        h1 = soup.find('h1', 'obj-header-text')
        
        if h1:
            address = h1.get_text(strip=True)
        else:
            address = 'n/a'

        data.append({'Address' : address, **get_dl(soup)})
            
for entry in data:
    print(entry)

Даю вам data начало:

{'Address': 'Vilnius, Markučiai, Pakraščio g., 2 kambarių butas', 'Plotas:': '44,9 m²', 'Kambarių sk.:': '2', 'Metai:': '2023'}
{'Address': 'Vilnius, Pašilaičiai, Budiniškių g., 2 kambarių butas', 'Plotas:': '49,16 m²', 'Kambarių sk.:': '2', 'Metai:': '2022'}
{'Address': 'Vilnius, Senamiestis, Liejyklos g., 4 kambarių butas', 'Plotas:': '55 m²', 'Kambarių sk.:': '4', 'Metai:': '1940'}
{'Address': 'Vilnius, Žirmūnai, Kareivių g., 2 kambarių butas', 'Plotas:': '24,3 m²', 'Kambarių sk.:': '2', 'Metai:': '2020'}

Вы можете написать это output.csv, используя:

with open('output.csv', 'w', encoding='utf-8', newline='') as f_output:
    csv_output = csv.DictWriter(f_output, fieldnames=data[0].keys())
    csv_output.writeheader()
    csv_output.writerows(data)

Дарим output.csv начиная:

Address,Plotas:,Kambarių sk.:,Metai:
"Vilnius, Markučiai, Pakraščio g., 2 kambarių butas","44,9 m²",2,2023
"Vilnius, Pašilaičiai, Budiniškių g., 2 kambarių butas","49,16 m²",2,2022
"Vilnius, Senamiestis, Liejyklos g., 4 kambarių butas",55 m²,4,1940

Другие вопросы по теме