Извлечение именованных сущностей с помощью Google NL API и Open Calais API

Я пытаюсь идентифицировать именованные сущности в тексте и разделить их на людей, места и организации. Я использую Cloud Natural Language API от Google и Open Calais API для идентификации названных сущностей.

  1. Когда я ввожу текст, содержащий слово «Китай», Google NL API идентифицирует его как тип «Человек». Однако его контекстное значение в документе относится к стране. Может ли Google NL API предоставлять сущности на основе текстового контекста? Если да, дайте мне знать, что мне не хватает.

  2. Если текст содержит слово «обама», Google NL API выводит «Обама» как «Личность», тогда как Open Calais API идентифицирует «Барака Обаму» как «Личность». Почему это так? Каковы другие способы получить точные названные сущности из термина в тексте, как тот, который возвращает Open Calais?

Как использовать WAI-ARIA
Как использовать WAI-ARIA
В моем текущем новом проекте почти все компоненты не учитывают веб-доступность. Моя нынешняя компания - это стартап, поэтому они не заботились о...
0
0
176
1

Ответы 1

Что касается (1), не могли бы вы поделиться своим предложением? Я пробовал несколько предложений, таких как «Я еду в Китай» или «Вы знаете кого-нибудь в Китае», и он возвращает Location в качестве типа для Китая (вы можете быстро попробовать на https://cloud.google.com/natural-language/)

Что касается (2), NL API извлекает сущность из текста. Итак, если в тексте есть «Обама», он будет извлекать «Обаму», а если это «Барак Обама», извлекается именно так. Однако он правильно разрешит оба случая на правой странице википедии и вернет один и тот же MID для обоих случаев. Таким образом, вы также можете извлечь информацию из них.

Предложение, которое я пробую: «За ним следуют США, а затем Китай. [214]» Для этого предложения «Китай». идентифицируется Google NL API как "PERSON". Если я уберу числовую строку в скобках в конце, она классифицирует «Китай» как «ОРГАНИЗАЦИЯ».

Madhura Sulgekar 07.08.2018 05:59

Кроме того, я попробовал фразу вроде: «В течение 20 века основными производителями электромобилей в США были Anthony Electric, Baker, Columbia, Anderson, Edison, Riker, Milburn, Bailey Electric и другие. 'и я получаю ответ для «Милберн» как «ЛИЦО», тогда как это должно быть «МЕСТО». Почему это не классифицируется как уместное?

Madhura Sulgekar 07.08.2018 06:12

Поскольку «за ними следуют США, а затем Китай. [214]», проблема, похоже, не в пространстве между «Китаем». и следующий токен. На самом деле, это путает это с ЛИЦОМ для всего, что не имеет места сразу после точки. Я сообщу об этом.

Mona Attariyan 10.08.2018 06:11

Во втором предложении довольно сложно сказать, являются ли эти имена организациями или людьми в целом. Так что я не удивлен, что он сделал эту ошибку.

Mona Attariyan 10.08.2018 06:12

Другие вопросы по теме