Как получить индекс токена в предложении в spaCy?

Есть ли элегантный способ получить индекс слова / токена в его предложении? Мне известны атрибуты токенов https://spacy.io/api/token#attributes Атрибут i возвращает индекс во всем родительском документе. Но родительский документ может содержать несколько предложений.

Пример:

"This is an example. This is another example."

Мне нужно, чтобы оба "This" возвращались как индекс 0, оба "is" возвращались как индекс 1 и т. д.

nlp spacy dependency-parsing

07.06.2018 15:27

Тонкая настройка GPT-3 с помощью Anaconda

Зарегистрируйте аккаунт Open ai, а затем получите ключ API ниже.

7 601

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Объект spaCy Doc также позволяет вам перебирать doc.sents, которые являются Span объекты отдельного предложения. Чтобы получить индекс начала и конца диапазона в родительском документе, вы можете посмотреть атрибуты start и end. Итак, если вы перебираете предложения и вычитаете индекс начала предложения из token.i, вы получаете относительный индекс токена в предложении:

for sent in doc.sents:
    for token in sent:
        print(token.text, token.i - sent.start)

Сегментация предложений по умолчанию использует синтаксический анализ зависимостей, который обычно более точен. Однако вы также можете подключить основанное на правилах или полностью индивидуальное решение (глянь сюда для подробностей).

08.06.2018 02:29

Другие вопросы по теме

Как я могу перебрать кучу документов и выполнить spacy nlp для каждого из них, не получая ошибки памяти?

Сохранение всех пробелов как токенов

Python - пометьте все именованные объекты пространством

Как использовать цикл для доступа к слову, предшествующему глаголу в предложении, с помощью spaCy? Python

Аннотирование предложения тегами BILOU для spaCy

SpaCy добавляет указатель на другой токен в пользовательском компоненте

Добавить сущности, зависящие от предметной области, в обучающий набор spaCy или Stanford NLP

Учитывая оператор IF-ELSE внутри цикла for, могу ли я пропустить IF, только если условие выполняется один раз? питон

Как отметить глагол в предложении с помощью spaCy? (питон)

Можно ли исключить определенные теги POS в spaCy? Python

Как получить индекс токена в предложении в spaCy?

Ответы 1

Другие вопросы по теме

Похожие вопросы