Я пытаюсь пометить ORG из кучи текста, который я анализирую.
То, что у меня есть до сих пор, выглядит следующим образом:
import spacy
import en_core_web_sm
nlp = en_core_web_sm.load()
file = open("C:\\sample.txt")
doc = nlp(file.read())
print([(X.text, X.label_) for X in doc.ents])
Теперь мой результат печатает все возможные теги, я просто хочу вместо этого печатать ORG. Любые предложения о том, как это сделать?
X.label_
содержит имя объекта, поэтому все, что вам нужно, это добавить условие, чтобы возвращались только те кортежи, где X.label_
равно ORG
:
print([(X.text, X.label_) for X in doc.ents if X.label_ == "ORG"])
# ^------------------^