Я пытаюсь загрузить все файлы csv со следующего веб-сайта: https://emi.ea.govt.nz/Wholesale/Datasets/FinalPricing/EnergyPrices. Мне удалось сделать это с помощью следующего кода:
from bs4 import BeautifulSoup
import requests
url = 'https://emi.ea.govt.nz/Wholesale/Datasets/FinalPricing/EnergyPrices'
r = requests.get(url)
soup = BeautifulSoup(r.text, 'html.parser')
csv_links = ['https://emi.ea.govt.nz'+a['href'] for a in soup.select('td.csv a')]
contents = []
for i in csv_links:
req = requests.get(i)
csv_contents = req.content
s=str(csv_contents,'utf-8')
data = StringIO(s)
df=pd.read_csv(data)
contents.append(df)
final_price = pd.concat(contents)
Если это вообще возможно, я хотел бы упростить этот процесс. Файл на веб-сайте изменяется каждый день, и я не хочу каждый день запускать скрипт для извлечения всех файлов; вместо этого я просто хочу извлечь файлы из Yesterday и добавить существующие файлы в свою папку. И для этого мне нужно очистить столбец «Дата изменения» вместе с URL-адресом файлов. Я был бы признателен, если бы кто-нибудь мог сказать мне, как получить даты, когда файлы были обновлены.
Вы можете использовать диапазон nth-child для фильтрации столбцов 1 и 2 таблицы вместе с соответствующим смещением строки в таблице, изначально соответствующей классу.
Затем извлеките URL-адрес или дату (в виде текста) в пределах списка, разделенного на исходный возвращаемый список (как будет чередоваться столбец 1, столбец 2, столбец 1 и т. д.). Заполните URL-адрес или преобразуйте его в фактические даты (текст) в рамках соответствующих списков, заархивируйте полученные списки и преобразуйте их в DataFrame.
import requests
from datetime import datetime
from bs4 import BeautifulSoup as bs
import pandas as pd
r = requests.get(
'https://emi.ea.govt.nz/Wholesale/Datasets/FinalPricing/EnergyPrices')
soup = bs(r.content, 'lxml')
selected_columns = soup.select('.table tr:nth-child(n+3) td:nth-child(-n+2)')
df = pd.DataFrame(zip(['https://emi.ea.govt.nz' + i.a['href'] for i in selected_columns[0::1]],
[datetime.strptime(i.text, '%d %b %Y').date() for i in selected_columns[1::2]]), columns=['name', 'date_modified'])
print(df)
Вы можете применить метод понимания списка
from bs4 import BeautifulSoup
import requests
import pandas as pd
url = 'https://emi.ea.govt.nz/Wholesale/Datasets/FinalPricing/EnergyPrices'
r = requests.get(url)
print(r)
soup = BeautifulSoup(r.text, 'html.parser')
links=[]
date=[]
csv_links = ['https://emi.ea.govt.nz'+a['href'] for a in soup.select('td[class = "expand-column csv"] a')]
modified_date=[ date.text for date in soup.select('td[class = "two"] a')[1:]]
links.extend(csv_links)
date.extend(modified_date)
df = pd.DataFrame(data=list(zip(links,date)),columns=['csv_links','modified_date'])
print(df)
Выход:
csv_links modified_date
0 https://emi.ea.govt.nz/Wholesale/Datasets/Fina... 22 Mar 2022
1 https://emi.ea.govt.nz/Wholesale/Datasets/Fina... 22 Mar 2022
2 https://emi.ea.govt.nz/Wholesale/Datasets/Fina... 22 Mar 2022
3 https://emi.ea.govt.nz/Wholesale/Datasets/Fina... 22 Mar 2022
4 https://emi.ea.govt.nz/Wholesale/Datasets/Fina... 22 Mar 2022
.. ... ...
107 https://emi.ea.govt.nz/Wholesale/Datasets/Fina... 20 Dec 2021
108 https://emi.ea.govt.nz/Wholesale/Datasets/Fina... 20 Dec 2021
109 https://emi.ea.govt.nz/Wholesale/Datasets/Fina... 20 Dec 2021
110 https://emi.ea.govt.nz/Wholesale/Datasets/Fina... 20 Dec 2021
111 https://emi.ea.govt.nz/Wholesale/Datasets/Fina... 20 Dec 2021
[112 rows x 2 columns]