Я пытаюсь получить все заголовки, которых нет в нижнем колонтитуле.
Так что заголовок <h3 class = "ibm-bold">Discover</h3>
следует исключить из очистки.
<footer role = "contentinfo" aria-label = "IBM">
<div class = "region region-footer">
<div id = "ibm-footer-module">
<section role = "region" aria-label = "Resources">
<h3 class = "ibm-bold">Discover</h3>
Я попытался использовать это выражение для выбора заголовков, которые следует исключить, но оно не возвращает правильные узлы.
//*[self::h1 or self::h2 or self::h3 or self::h4 or self::h5 or self::h6]/ancestor::footer/text()
Страница, которую я очищаю, это: https://www.ibm.com/products/informix/embedded-for-iot?mhq=iot&mhsrc=ibmsearch_a
Пожалуйста помоги
У тебя почти получилось.
//*[
(self::h1 or self::h2 or self::h3 or self::h4 or self::h5 or self::h6)
and not(ancestor::footer)
]/text()