Я использую библиотеку cheerio в качестве скребка в моем проекте nodejs. Я хочу разобрать следующую структуру:
<li class = "sub menu-category-main">
<p>
<span class = "price">$16.00</span>
ZESTAW DNIA + ZUPA
</p>
</li>
<li class = " ">
<p>
<span class = "price">$12.00</span>
<img class = "allergens" title = "Vegerarian" src = "/new_site/img/vegetarian_.png">
NALEŚNIKI AMERYKAŃSKIE Z SOSEM OWOCOWYM
<br>
american pancakes with fruit sauce
</p>
</li>
<li class = " ">
<p>
<span class = "price">$11.00</span>
<img class = "allergens" title = "lactose free" src = "/new_site/img/lactose_.png">
<img class = "allergens" title = "gluten free" src = "/new_site/img/gluten_.png">
<img class = "allergens" title = "Vegerarian" src = "/new_site/img/vegetarian_.png">
LECZO WEGETARIAŃSKIE
<br>
vegetables lecho
</p>
</li>
Как мне проанализировать этот HTML, чтобы узнать цену, название и список изображений? В конце я хочу создать объект JSON для повторного использования данных (я знаю, как создать JSON, просто есть проблемы с синтаксическим анализом над HTML).
Вы можете заметить, что есть имена на английском и польском языках. Меня интересуют струны на польском языке. Также обратите внимание, что структура этого документа очень неправильная (непоследовательная).
Я также хочу добавить, что создание .text () из "p" не дает мне тех результатов, которые мне нравятся.
@Nicolas Ты потрясающий! Работает просто отлично :-) Спасибо!
Возможный дубликат Получить текст в родительском без детей с помощью Cheerio
Может, это могло бы вам помочь? stackoverflow.com/questions/20832910/…