Не удалось очистить таблицу с веб-сайта CME Group в R

Я пытаюсь очистить эту таблицу от CME. https://www.cmegroup.com/market-data/cme-group-benchmark-administration/term-sofr.html

Однако функция read_html или html для xml2 и rvest соответственно никогда ничего не возвращает. Может ли кто-нибудь подсказать, как я могу перенести это в фрейм данных R?

Вау, они замазывают дегтем базовые соскобы. Хотя мне действительно любопытно, это говорит мне о том, что они принимают активные меры для предотвращения этого. Без особого погружения я подозреваю, что у них есть условия использования, которые прямо запрещают это делать даже в академических целях. Вы обращались к ним? Возможно, у них есть API для облегчения прямого доступа к данным.

— 04.04.2023 21:47

Но если это только одна таблица, у меня сработало следующее: (1) в R вставьте это, но не нажимайте Enter: dat <- read.table(text = readLines(con = "clipboard")[-1], sep = "\t"); (2) выделить всю таблицу, даже если заголовки у них двухстрочные; (3) скопировать (Ctrl-C); (4) вернитесь в R, нажмите Enter. Я знаю, что это не автоматизировано, но, по крайней мере, вам не нужно вводить что-то вручную :-) (con = "clipboard" для окон, я думаю, что у macos есть что-то другое...)

— 04.04.2023 21:54

Вы можете перейти через quantmod в Yahoo! Финансы, например. quantmod::getQuote(c("CL=F", "GC=F", "ES=F", "TY=F")) дает вам четыре фронта контракта.

— 04.04.2023 21:54

@r2evans их корневой файл robots.txt очень ограничен!

— 04.04.2023 22:12

Похоже, RSelenium все еще работает! Но это очень возможно, если они довольно быстро заблокируют ваш браузер RSelenium, если вы очищаете большую часть их страницы.

— 05.04.2023 02:23

r web-scraping

04.04.2023 21:43

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Вы можете загрузить веб-страницу, а затем прочитать html-файл, используя read_html, вы можете проверить веб-страницу, чтобы найти местоположение (Xpath) таблицы, и использовать эту информацию с помощью html_element и html_table для получения данных.

library(rvest)

page <- read_html("Term SOFR - CME Group.html")
xpath <- '//*[@id = "main-content"]/div/div[5]/div/div[3]/div/div/div[1]/div[1]/table'
page %>% 
  html_element(xpath = xpath) %>% 
  html_table()
#> # A tibble: 6 × 10
#>   Date   CME T…¹ CME T…² CME T…³ CME T…⁴ Sofr …⁵ Sofr …⁶ Sofr …⁷ Sofr …⁸ Sofr …⁹
#>   <chr>  <chr>   <chr>   <chr>   <chr>   <chr>   <chr>   <chr>   <chr>   <chr>  
#> 1 Date   1 Month 3 Month 6 Month 12 Mon… Overni… Index   30-Day… 90-Day… 180-Da…
#> 2 04 Ap… 4.82805 4.93736 4.94064 4.7373  -       1.0723… 4.67186 4.53349 4.13336
#> 3 03 Ap… 4.81043 4.92063 4.9201  4.75019 4.84    1.0721… 4.66213 4.52753 4.12316
#> 4 31 Ma… 4.80247 4.90855 4.89968 4.73451 4.87    1.0717… 4.63004 4.50833 4.09148
#> 5 30 Ma… 4.80341 4.89012 4.86581 4.69477 4.82    1.0716… 4.62101 4.50247 4.08105
#> 6 29 Ma… 4.80702 4.89833 4.86464 4.6642  4.83    1.0714… 4.61164 4.49651 4.07056
#> # … with abbreviated variable names ¹`CME Term Sofr (%)`, ²`CME Term Sofr (%)`,
#> #   ³`CME Term Sofr (%)`, ⁴`CME Term Sofr (%)`, ⁵`Sofr *`, ⁶`Sofr *`,
#> #   ⁷`Sofr Averages *`, ⁸`Sofr Averages *`, ⁹`Sofr Averages *`

спасибо большое виктор! Я смог добиться этого после загрузки страницы и запуска вашего кода. Один вопрос - вы вручную сохранили эту страницу из браузера или использовали какую-то функцию для ее загрузки? И возможно ли последнее?

— 05.04.2023 02:22

Я скачал html вручную. Как уже упоминалось, этот веб-сайт имеет защиту, которая предотвращает обычный процесс очистки. Если возможно, для очистки могут потребоваться дополнительные шаги. Я уверен, что есть какой-то обходной путь, но я его не знаю.

— 05.04.2023 16:15

04.04.2023 22:21

Ответ принят как подходящий

Вы по-прежнему можете автоматически удалить таблицу с этой страницы, если используете RSelenium. Я бы сказал, что этот метод намного веселее, чем ручное копирование и вставка HTML или текста таблицы: D
Вот как:

# load libraries
library(RSelenium)
library(rvest)
library(magrittr)

# define target url
url <- "https://www.cmegroup.com/market-data/cme-group-benchmark-administration/term-sofr.html"


# start RSelenium ------------------------------------------------------------

rD <- rsDriver(browser = "firefox", port=4550L, chromever = NULL)
remDr <- rD[["client"]]

# open the remote driver-------------------------------------------------------
remDr$open()

# Navigate to webpage -----------------------------------------------------
remDr$navigate(url)


# pull the webpage html
# then read it
page_html <- remDr$getPageSource()[[1]] %>% 
  read_html()

# Find all the tables on the page
tables <- page_html %>% html_table()

# save the first table in a new variable
CME_table <- tables[[1]]

Вот как это выглядит:

> CME_table
# A tibble: 6 × 10
  Date  CME T…¹ CME T…² CME T…³ CME T…⁴ Sofr …⁵ Sofr …⁶ Sofr …⁷
  <chr> <chr>   <chr>   <chr>   <chr>   <chr>   <chr>   <chr>  
1 Date  1 Month 3 Month 6 Month 12 Mon… Overni… Index   30-Day…
2 04 A… 4.82805 4.93736 4.94064 4.7373  -       1.0723… 4.67186
3 03 A… 4.81043 4.92063 4.9201  4.75019 4.84    1.0721… 4.66213
4 31 M… 4.80247 4.90855 4.89968 4.73451 4.87    1.0717… 4.63004
5 30 M… 4.80341 4.89012 4.86581 4.69477 4.82    1.0716… 4.62101
6 29 M… 4.80702 4.89833 4.86464 4.6642  4.83    1.0714… 4.61164
# … with 2 more variables: `Sofr Averages *` <chr>,
#   `Sofr Averages *` <chr>, and abbreviated variable names
#   ¹`CME Term Sofr (%)`, ²`CME Term Sofr (%)`,
#   ³`CME Term Sofr (%)`, ⁴`CME Term Sofr (%)`, ⁵`Sofr *`,
#   ⁶`Sofr *`, ⁷`Sofr Averages *`
# ℹ Use `colnames()` to see all variable names

Некоторые предостережения к этому подходу:

Иногда RSelenium может быть немного сложно настроить.
Эта страница не хочет быть очищена, поэтому, если вы много копируете с их сайта, я предприму шаги, чтобы избежать блокировки, такие как добавление задержек в ваш код, добавление случайных движений клавиш и мыши и указание другого пользователя. агент.

05.04.2023 02:22

Другие вопросы по теме

Как я могу очистить таблицу для ссылок, щелкнуть ссылки, а затем очистить данные внутри ссылок?

Щелчок по элементу Href с селеном

Веб-очистка текста с использованием Python дает пустой вывод

Почему код парсинга R Web для выбора всех актеров и режиссеров на веб-сайте IMDB не работает?

Красивый суп Электронная почта защищена

Веб-скрапинг ссылок на pdf-файлы не работает

Ошибка «строковые индексы должны быть целыми числами» при веб-скрейпинге

BS Извлечь весь текст между двумя указанными ключевыми словами

Как очистить имена актеров + дополнительную информацию со связанной страницы сведений?

Переключиться на iframe с селеном

Не удалось очистить таблицу с веб-сайта CME Group в R

Ответы 2

Другие вопросы по теме

Похожие вопросы