Я пытаюсь спарсить элемент с сайта: https://diga.bfarm.de/de/verzeichnis
моя цель — создать таблицу из всех class="entity-app"
library (rvest)
document <- read_html("https://diga.bfarm.de/de/verzeichnis")
html_products <- document %>% html_elements("entity-app")
моя цель – добиться следующего результата
Если бы у кого-то была идея или ход мыслей, это было бы очень хорошо.
Большое спасибо, дорогие будущие участники. ;)
rvest
имеет экспериментальную функцию read_html_live()
, которая может очищать веб-страницы, динамически генерирующие JavaScript. Попробуйте read_html_live("https://diga.bfarm.de/de/verzeichnis") |> html_elements(".entity-app__header__name") |> html_text2()
, например.
Это сработало для меня, если это поможет (используя rvest read_html_live
и помещая результаты в фрейм данных с двумя столбцами):
library(tibble)
library(rvest)
sess <-
read_html_live("https://diga.bfarm.de/de/verzeichnis")
Sys.sleep(5)
tibble(
header = sess |>
html_elements(".entity-app__header__name") |>
html_text2(),
info = sess |>
html_elements(".entity-app__subheader") |>
html_text2()
)
#> # A tibble: 57 × 2
#> header info
#> <chr> <chr>
#> 1 actensio Vorläufig…
#> 2 Cara Care für Reizdarm Dauerhaft…
#> 3 companion patella powered by medi - proved by Dt. Kniegesellschaft Dauerhaft…
#> 4 deprexis Dauerhaft…
#> 5 edupression.com® Dauerhaft…
#> 6 elevida Dauerhaft…
#> 7 elona therapy Depression Vorläufig…
#> 8 Endo-App Dauerhaft…
#> 9 glucura Diabetestherapie Vorläufig…
#> 10 HelloBetter Chronische Schmerzen Dauerhaft…
#> # ℹ 47 more rows
Created on 2024-05-06 with reprex v2.1.0
я получил следующую ошибку: «Ошибка в new_chromote && !self$session$is_active(): неверный тип 'x» в 'x && y'
У вас установлен пакет chromote? А на вашем компьютере установлена копия Google Chrome?
rvest
здесь не тот инструмент. Я щелкнул ссылку, и похоже, что содержимое динамически загружается с помощью JavaScript.document <- read_html("https://diga.bfarm.de/de/verzeichnis")
возвращает сообщение об ошибке на немецком языке, которое переводится как «Эта страница требует JavaScript». Пожалуйста, включите JavaScript в настройках вашего браузера. Вам следует рассмотреть возможность использования безголового браузера, например. через RSelenium .