В нем говорится, что пользовательские агенты будут игнорировать пользовательские атрибуты данных. Смотрите изображение из w3schools
Мне любопытно, если scrapy игнорирует эти теги, поскольку я получаю пустой список, возможно, это связано с атрибутами данных data-v-529299fa = ""
, используемыми в HTML.
Вот мой источник
<a data-v-529299fa = "" target = "_blank" href = "https://data.amica.com.pl/files/pdm_IO/SER_0019314_ART.pdf"
class = "product-spec__file-link">
<font style = "vertical-align: inherit;">
<font style = "vertical-align: inherit;">Operating manual AWDG7512CL_1140173 (PL)</font>
</font>
</a>
И я хочу очистить href тега привязки, содержащего ссылку в формате PDF. Итак, вот что я пробовал
pdfs = response.xpath('//a[@data-v-529299fa = ""]/@href').extract()
# also
pdfs = response.css('a[data-v-529299fa = ""]::attr(href)').extract()
и я получил [] пустой список. Существует более 1 pdf-файла, поэтому я использую extract(). Любая помощь будет оценена по достоинству.
Нет, Scrapy не удаляет какой-либо контент из ответа, полученного от сервера.
Эта строка означает, что веб-браузеры не воздействуют на содержимое этих атрибутов, они не меняют то, что они отображают, в зависимости от его содержимого (хотя код JavaScript может это сделать).