В настоящее время я занимаюсь преобразованием библиографической информации из структуры XML в практически все, что можно использовать. Мой последний шаг — извлечь значение атрибута «xml:id» и добавить его в мой красивый фрейм данных. Все остальное у меня хорошо работает в ElementTree и пандах в Python.
например: я хочу вытащить «Kagawa2014» из biblStruct ниже:
<biblStruct type = "book" xml:id = "Kagawa2014" corresp = "http://zotero.org/users/local/fmahZILk/items/EAK64XAU">
<monogr>
#blahblah
</monogr>
</biblStruct>
Я попробовал несколько вещей, которые нашел при переполнении стека:
for biblStruct in root.findall('.//tei:biblStruct', namespace):
id_elem = biblStruct.attrib('xml:id')
и получил TypeError: объект 'dict' не может быть вызван и вот, на что я очень надеялся:
for biblStruct in root.findall('.//tei:biblStruct', namespace):
id_elem = biblStruct.get('{http://w3.org/XML/1998/namespace}id')
id_text = id_elem.text if id_elem is not None else ''
xmlID.append(id_text)
data = {
'XML_ID':xmlID
}
df = pd.DataFrame(data)
print(df)
Это вернуло DF, который только что подсчитал biblStructs (правильный номер) (т.е. 0,1,2,3,4 и т.д. и т.п.) также:
for biblStruct in root.findall('.//tei:biblStruct', namespace):
id_elem = biblStruct.get('{http://w3.org/XML/1998/namespace}id')
xmlID.append(id_elem)
data_again = {
'XML_ID': xmlID
}
df_again = pd.DataFrame(data_again)
print(df_again)
Это вернуло DF, подобный приведенному выше, только теперь ВДВОЕ больше! Как магия.






На этот вопрос сложно ответить. Не потому, что это сложно, а потому, что ваши примеры (как XML, так и Python) неполны, поэтому мы не можем запустить то, что у вас есть. У нас нет минимального и воспроизводимого образца ; нам придется начать с нуля.
Я отвлекся...
Вы пытаетесь получить значение атрибута. Не значение элемента (поэтому не будет никакого свойства .text).
Вы (вероятно) были близки к своей первоначальной попытке (непроверенной, потому что у меня нет времени начинать с нуля). .attrib — это словарь, поэтому вы получаете к нему доступ как к словарю...
for biblStruct in root.findall('.//tei:biblStruct', namespace):
id_attr = biblStruct.attrib['{http://www.w3.org/XML/1998/namespace}id']
Или (на мой взгляд предпочтительнее)...
id_attr = biblStruct.get('{http://www.w3.org/XML/1998/namespace}id')
Редактировать: после более внимательного рассмотрения вашего последнего примера выяснилось, что то, что я сделал с .get(), это то же самое, что и вы. Если вы не получаете значение атрибута, значит, что-то еще не так (но я не знаю, что именно, потому что не могу воспроизвести).
Мне удалось заставить это работать. чтобы извлечь значение xml:id из фрагмента
xml_id = biblStruct.get('{http://www.w3.org/XML/1998/namespace}id',
'')
В моих первых попытках не хватало '' в конце.
Это можно сделать с помощью lxml.
Пространство имен по умолчанию xml не объявлено в документе, но используется в атрибуте. Пространство имен в любом случае можно добавить в пространство имен dict, а атрибут можно найти из элемента с помощью xpath.
from lxml import etree
tree = etree.parse('/home/lmc/tmp/tmp2.xml')
ns = {'xml': 'http://www.w3.org/XML/1998/namespace'}
ele = tree.xpath('//biblStruct', namespaces=ns)[0]
print(ele.xpath('@xml:id')[0])
Результат
'Kagawa2014'
Большое спасибо. Это также может быть полезно для фильтрации некоторых других значений.
.xpath() — только lxml. Кроме того, вам не нужен аргумент namespaces=ns?
@DanielHaley спасибо, что указали на недостающий параметр. И да, xpath() — это lxml, а ElementTree не поддерживает @* выражения xpath, поэтому @k-mc, мой ответ не будет работать с ElementTree
@LMC, я все еще ценю время! и я спрячу это для будущих проектов!
спасибо за ваше время на ответ. и мои извинения, я обрезал слишком много. Повозившись с этим, я получил информацию, которую хотел сделать что-то близкое к моей первой попытке.