Разбор данных XML с помощью самозакрывающихся тегов в Python

Я могу анализировать данные XML, используя теги, когда они открываются и закрываются. Как <link>https://www.nba.com/bucks/</link>

в коде это становится,

link = item['link']

Как разобрать самозакрывающийся тег?

<enclosure url = "https://www.nba.com/bucks/sites/bucks/files/styles/media_thumbnail/public/middleton_3point_tw.jpg?itok=eiU05Btp" length = "37714" type = "image/jpeg" />

Кроме того, как мне получить только URL-адрес изображения и удалить все после ? в URL-адресе?

Как вы его "разбираете"? Я надеюсь, что не вручную (например, регулярное выражение)... Вы должны использовать синтаксический анализатор XML, если вы еще этого не сделали, тогда вообще не должно иметь значения, закрыты они или нет.

— 07.02.2019 23:40

xml python-3.x

07.02.2019 22:53

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

1 689

Ответы 1

Используйте синтаксический анализатор XML, например https://docs.python.org/2/library/xml.etree.elementtree.html.

XPath определяют стандартные выражения для идентификации и извлечения элементов/тегов в XML-документе.
Используя XPaths с хорошим синтаксическим анализатором xml, вы можете легко найти любой элемент в документе. Например, xpath для поиска всех элементов ограждение в документе будет ".//корпус".
Если вы анализируете много XML-путей, о них стоит прочитать. Вот отличный стартовый туториал https://www.w3schools.com/xml/xpath_intro.asp

Например, вы можете сделать:

import xml.etree.ElementTree as ET
tree = ET.parse('your_xml_file.xml')
enclosures = tree.findall(".//enclosure") # Use the XPath to find all enclosure elements 
for enclosure in  enclosures:
    print(enclosure.attrib)

Вывод

{'url': 'https://www.nba.com/bucks/sites/bucks/files/styles/media_thumbnail/public/middleton_3point_tw.jpg?itok=eiU05Btp', 'length': '37714', 'type': 'image/jpeg'}

Затем вы можете просто разделить URL-адрес на ?, чтобы получить окончательный результат. Например

url = enclosure.attrib['url'].split('?')[0]
print(url)

Вывод

https://www.nba.com/bucks/sites/bucks/files/styles/media_thumbnail/public/middleton_3point_tw.jpg

07.02.2019 23:21

Другие вопросы по теме

Могу ли я вызвать метод и войти в него, находясь внутри трассировки pdb?

Как понизить выборку с месяцев до лет, а также создать многоуровневый индекс?

Текст аннотации Matplotlib расширяется за пределы осей

Как сгенерировать ключ авторизации для python BaseManager

Как заставить программу работать при вызове функции вместо использования массива numpy?

Как преобразовать строку в список

Очередь приоритетов с классом пользовательского типа получает TypeError ("'>' не поддерживается между экземплярами PrioritizedItem и int'")?

Ищете элегантный способ одновременного зацикливания двух списков разной длины

Что происходит в пустом пространстве на панели управления потоком распределенных задач dask?

Есть ли функция Tkinter (Python 3.7), которая направляет вывод текста в созданное окно, а не в командную строку?

Разбор данных XML с помощью самозакрывающихся тегов в Python

Ответы 1

Вывод

Вывод

Другие вопросы по теме

Похожие вопросы