Как мне извлечь из xml значение «xml:id» в Python, используя ElementTree, в фрейм данных?

В настоящее время я занимаюсь преобразованием библиографической информации из структуры XML в практически все, что можно использовать. Мой последний шаг — извлечь значение атрибута «xml:id» и добавить его в мой красивый фрейм данных. Все остальное у меня хорошо работает в ElementTree и пандах в Python.

например: я хочу вытащить «Kagawa2014» из biblStruct ниже:

<biblStruct type = "book" xml:id = "Kagawa2014" corresp = "http://zotero.org/users/local/fmahZILk/items/EAK64XAU">
    <monogr>
#blahblah
    </monogr>
</biblStruct>

Я попробовал несколько вещей, которые нашел при переполнении стека:

for biblStruct in root.findall('.//tei:biblStruct', namespace):
    id_elem = biblStruct.attrib('xml:id')

и получил TypeError: объект 'dict' не может быть вызван и вот, на что я очень надеялся:

for biblStruct in root.findall('.//tei:biblStruct', namespace):
    id_elem = biblStruct.get('{http://w3.org/XML/1998/namespace}id')
    id_text = id_elem.text if id_elem is not None else ''
    xmlID.append(id_text)

    
data = {
    'XML_ID':xmlID
    }
df = pd.DataFrame(data)
print(df)

Это вернуло DF, который только что подсчитал biblStructs (правильный номер) (т.е. 0,1,2,3,4 и т.д. и т.п.) также:

for biblStruct in root.findall('.//tei:biblStruct', namespace):
    id_elem = biblStruct.get('{http://w3.org/XML/1998/namespace}id')
    xmlID.append(id_elem)

    
data_again = {
    'XML_ID': xmlID
    }
df_again = pd.DataFrame(data_again)
print(df_again)

Это вернуло DF, подобный приведенному выше, только теперь ВДВОЕ больше! Как магия.

python pandas xml xml-parsing elementtree

09.05.2024 20:10

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

Перейти к ответу Данный вопрос помечен как решенный

Ответы 3

На этот вопрос сложно ответить. Не потому, что это сложно, а потому, что ваши примеры (как XML, так и Python) неполны, поэтому мы не можем запустить то, что у вас есть. У нас нет минимального и воспроизводимого образца ; нам придется начать с нуля.

Я отвлекся...

Вы пытаетесь получить значение атрибута. Не значение элемента (поэтому не будет никакого свойства .text).

Вы (вероятно) были близки к своей первоначальной попытке (непроверенной, потому что у меня нет времени начинать с нуля). .attrib — это словарь, поэтому вы получаете к нему доступ как к словарю...

for biblStruct in root.findall('.//tei:biblStruct', namespace):
    id_attr = biblStruct.attrib['{http://www.w3.org/XML/1998/namespace}id']

Или (на мой взгляд предпочтительнее)...

id_attr = biblStruct.get('{http://www.w3.org/XML/1998/namespace}id')

Редактировать: после более внимательного рассмотрения вашего последнего примера выяснилось, что то, что я сделал с .get(), это то же самое, что и вы. Если вы не получаете значение атрибута, значит, что-то еще не так (но я не знаю, что именно, потому что не могу воспроизвести).

спасибо за ваше время на ответ. и мои извинения, я обрезал слишком много. Повозившись с этим, я получил информацию, которую хотел сделать что-то близкое к моей первой попытке.

— 09.05.2024 21:44

09.05.2024 20:55

Ответ принят как подходящий

Мне удалось заставить это работать. чтобы извлечь значение xml:id из фрагмента

    xml_id = biblStruct.get('{http://www.w3.org/XML/1998/namespace}id',
'')

В моих первых попытках не хватало '' в конце.

09.05.2024 21:48

Это можно сделать с помощью lxml. Пространство имен по умолчанию xml не объявлено в документе, но используется в атрибуте. Пространство имен в любом случае можно добавить в пространство имен dict, а атрибут можно найти из элемента с помощью xpath.

from lxml import etree
tree = etree.parse('/home/lmc/tmp/tmp2.xml')
ns = {'xml': 'http://www.w3.org/XML/1998/namespace'}
ele = tree.xpath('//biblStruct', namespaces=ns)[0]
print(ele.xpath('@xml:id')[0])

Результат

'Kagawa2014'

Большое спасибо. Это также может быть полезно для фильтрации некоторых других значений.

— 09.05.2024 21:54

.xpath() — только lxml. Кроме того, вам не нужен аргумент namespaces=ns?

— 09.05.2024 21:58

@DanielHaley спасибо, что указали на недостающий параметр. И да, xpath() — это lxml, а ElementTree не поддерживает @* выражения xpath, поэтому @k-mc, мой ответ не будет работать с ElementTree

— 09.05.2024 22:27

@LMC, я все еще ценю время! и я спрячу это для будущих проектов!

— 13.05.2024 14:26

09.05.2024 21:53