Попытка извлечь HTML между двумя элементами стиля с помощью cheerio

Я очищаю HTML-страницу, но пытаюсь получить один раздел страницы. Нет классов, идентификаторов или чего-то супер полезного, что я могу подключить к Cheerio, как мне кажется (я новичок в этом, поэтому я знаю, что мое невежество играет роль).

Код выглядит так.

<b> Here's some text I don't want</b>
<b> More text I don't want</b>

<hr style = "width:90%; padding: 0>
<b> text I want </b>
<b> text I want </b>
<b> text I want </b>
<b> text I want </b>
<hr style = "width:90%; padding: 0>

<b> Here's some text I don't want</b>
<b> More text I don't want</b>

Есть ли способ получить HTML-код между двумя элементами <hr> с помощью Cheerio? Оба элемента совершенно одинаковы.

Веб-скраппинг с помощью PHP: Пошаговое руководство
Веб-скраппинг с помощью PHP: Пошаговое руководство
Веб-скрейпинг становится все более популярным и сегодня является одной из актуальных тем в IT-сообществе. В результате несколько библиотек помогают...
Инструменты для веб-скрапинга с открытым исходным кодом: Python Developer Toolkit
Инструменты для веб-скрапинга с открытым исходным кодом: Python Developer Toolkit
Веб-скрейпинг, как мы все знаем, это дисциплина, которая развивается с течением времени. Появляются все более сложные средства борьбы с ботами, а...
Скраппинг поиска Apple App Store с помощью Python
Скраппинг поиска Apple App Store с помощью Python
📌Примечание: В этой статье я покажу вам, как скрапировать поиск Apple App Store и получить точно такой же результат, как на Apple iMac, потому что...
0
0
236
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Если вы можете определить, какой nth использовать, вы можете попробовать селектор nth-of-type, например.

hr:nth-of-type(1)

Вы также можете использовать nth-child

Ответ принят как подходящий

Вы можете начать с первого часа и повторять next(), пока не дойдете до второго:

let el = $('hr').first()
while(el = el.next()){
  if (el.length === 0 || el.prop('tagName') === 'HR') break
  text += el.text() + "\n"
}

этот el.prop метод, похоже, не работает... какие-нибудь подсказки?

lopezdp 29.10.2019 07:17

Вам нужно будет настроить его для вашего конкретного html.

pguardiario 29.10.2019 07:46

Другие вопросы по теме