Разбор данных XML с помощью самозакрывающихся тегов в Python

Я могу анализировать данные XML, используя теги, когда они открываются и закрываются. Как <link>https://www.nba.com/bucks/</link>

в коде это становится,

link = item['link']

Как разобрать самозакрывающийся тег?

<enclosure url = "https://www.nba.com/bucks/sites/bucks/files/styles/media_thumbnail/public/middleton_3point_tw.jpg?itok=eiU05Btp" length = "37714" type = "image/jpeg" />

Кроме того, как мне получить только URL-адрес изображения и удалить все после ? в URL-адресе?

Как вы его "разбираете"? Я надеюсь, что не вручную (например, регулярное выражение)... Вы должны использовать синтаксический анализатор XML, если вы еще этого не сделали, тогда вообще не должно иметь значения, закрыты они или нет.

Jeff Mercado 07.02.2019 23:40
Стоит ли изучать PHP в 2026-2027 годах?
Стоит ли изучать PHP в 2026-2027 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
1
1
1 689
1

Ответы 1

Используйте синтаксический анализатор XML, например https://docs.python.org/2/library/xml.etree.elementtree.html.

  • XPath определяют стандартные выражения для идентификации и извлечения элементов/тегов в XML-документе.

  • Используя XPaths с хорошим синтаксическим анализатором xml, вы можете легко найти любой элемент в документе. Например, xpath для поиска всех элементов ограждение в документе будет ".//корпус".

  • Если вы анализируете много XML-путей, о них стоит прочитать. Вот отличный стартовый туториал https://www.w3schools.com/xml/xpath_intro.asp

Например, вы можете сделать:

import xml.etree.ElementTree as ET
tree = ET.parse('your_xml_file.xml')
enclosures = tree.findall(".//enclosure") # Use the XPath to find all enclosure elements 
for enclosure in  enclosures:
    print(enclosure.attrib)

Вывод

{'url': 'https://www.nba.com/bucks/sites/bucks/files/styles/media_thumbnail/public/middleton_3point_tw.jpg?itok=eiU05Btp', 'length': '37714', 'type': 'image/jpeg'}

Затем вы можете просто разделить URL-адрес на ?, чтобы получить окончательный результат. Например

url = enclosure.attrib['url'].split('?')[0]
print(url)

Вывод

https://www.nba.com/bucks/sites/bucks/files/styles/media_thumbnail/public/middleton_3point_tw.jpg

Другие вопросы по теме