Веб-скрапинг элемента с использованием BeautifulSoup и Python

Я пытаюсь получить элемент с tradeview.com. Конкретно по этой ссылке. Мне нужна цена символа любой ссылки, которую я даю своей программе. Я заметил, просматривая элементы URL-адреса, я могу найти цену акции здесь.

<div class = "tv-symbol-price-quote__value js-symbol-last">
    "3.065"
    <span class>57851</span>
</div>

При запуске этого кода ниже я получаю этот вывод.

#This will not run on online IDE
import requests
from bs4 import BeautifulSoup
  
URL = "https://www.tradingview.com/symbols/NEARUSD/"
r = requests.get(URL)
soup = BeautifulSoup(r.content, 'html.parser') # If this line causes an error, run 'pip install html5lib' or install html5lib
L = [soup.find_all(class_ = "tv-symbol-price-quote__value js-symbol-last")] 
print(L)

вывод

[[<div class = "tv-symbol-price-quote__value js-symbol-last"></div>]]

Как я могу получить всю цену с этого сайта? Я хотел бы 3.065, а также 57851.

у вас может быть самая распространенная проблема: страница может использовать JavaScript для добавления/обновления элементов, но BeautifulSoup/lxml, requests/urllib не может работать JS. Вам может понадобиться Selenium для управления реальным веб-браузером, который может работать JS. ИЛИ используйте (вручную) DevTools в Firefox/Chrome (вкладка Network), чтобы узнать, считывает ли JavaScript данные с какого-либо URL-адреса. И попробуйте использовать этот URL с requests. JS обычно получает JSON, который можно легко преобразовать в словарь Python (без BS). Вы также можете проверить, есть ли на странице (бесплатно) API для программистов.

— 18.10.2022 02:25

python web-scraping beautifulsoup

18.10.2022 02:05

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

У вас самая распространенная проблема: страница использует JavaScript для добавления/обновления элементов, но BeautifulSoup/lxml, requests/urllib не может работать JS. Вам может понадобиться Selenium для управления реальным веб-браузером, который может работать JS. ИЛИ используйте (вручную) DevTools в Firefox/Chrome (вкладка Network), чтобы узнать, считывает ли JavaScript данные с какого-либо URL-адреса. И попробуйте использовать этот URL с requests. JS обычно получает JSON, который можно легко преобразовать в словарь Python (без BS). Вы также можете проверить, есть ли на странице (бесплатно) API для программистов.

Используя DevTool, я обнаружил, что он использует JavaScript для отправки POST (с некоторыми данными JSON) и получает новую цену.

import requests

payload = {
    "columns": ["market_cap_calc", "market_cap_diluted_calc", "total_shares_outstanding", "total_shares_diluted", "total_value_traded"],
    "range": [0, 1],
    "symbols": {"tickers": ["BINANCE:NEARUSD"]}
}

url = 'https://scanner.tradingview.com/crypto/scan'

response = requests.post(url, json=payload)
print(response.text)

data = response.json()
print(data['data'][0]["d"][1]/1_000_000_000)

Результат:

{"totalCount":1,"data":[{"s":"BINANCE:NEARUSD","d":[2507704855.0467912,3087555230,812197570,1000000000,106737372.9550421]}]}

3.08755523

Обновлено:

Кажется, приведенный выше код дает только market cap. И страница использует websocket, чтобы получать новую цену каждые несколько секунд.

wss://data.tradingview.com/socket.io/websocket?from=symbols%2FNEARUSD%2F&date=2022_10_17-11_33

И для этого потребуется более сложный код.

Другой ответ (с Selenium) дает вам правильное значение.

полезная нагрузка имеет "columns": ["market_cap_calc", "market_cap_diluted_calc", "total_shares_outstanding", "total_shares_diluted", "total_value_traded"],, и я думаю, что результат дает эти значения. Я также сравнил значения из запросов POST в brewser с текущей ценой на странице, и они мало чем отличаются.

— 18.10.2022 03:01

Вы правы, это немного не так. Несчастный.

— 18.10.2022 03:03

возможно, если использовать другое значение в columns, тогда оно может дать правильное значение, но я не знаю, какой столбец использовать. Но у меня есть другая идея - кажется, что он получает данные от binance.com, и у этой страницы есть API, и, возможно, с помощью API вы можете получить цену. Вам нужно будет проверить, передает ли API информацию о новой цене.

— 18.10.2022 03:14

Пробовал это. По какой-то причине я могу найти цену на binance только с точностью до двух знаков после запятой, в отличие от нескольких в tradeview.

— 18.10.2022 03:16

18.10.2022 02:35

Ответ принят как подходящий

Содержимое веб-страницы загружается динамически с помощью JavaScript. Поэтому вам нужно использовать инструмент автоматизации, например, селен или скрытый API.

Здесь я использую селен с bs4 для захвата желаемого динамического контента.

import time
from selenium import webdriver
from bs4 import BeautifulSoup
from selenium.webdriver.chrome.service import Service

webdriver_service = Service("./chromedriver") #Your chromedriver path
driver = webdriver.Chrome(service=webdriver_service)
url= "https://www.tradingview.com/symbols/NEARUSD/"
driver.get(url)   
driver.maximize_window()
time.sleep(5)

soup = BeautifulSoup(driver.page_source,"lxml")

price = soup.find('div',class_ = "tv-symbol-price-quote__value js-symbol-last").get_text(strip=True)
print(price)

Вывод: