Я пытаюсь создать модель, которая принимает входное предложение в автономном приложении для Android и возвращает мне части речи для этого предложения. Теперь языком ввода будет индийский язык, поэтому я пытаюсь обучить свою собственную модель для этой работы. У меня уже есть размеченные данные для обучения языку, который я буду использовать.
Я также наткнулся на модели Opennlp, которые выполняют ту же работу для английского языка. Теперь можно создать модель и использовать ее с библиотекой Opennlp, что-то вроде пользовательской модели Opennlp. Я не уверен, что это действительно возможно.
В качестве альтернативы я подумал об обучении моей модели с помощью некоторого алгоритма машинного обучения, а затем его использовании, но я понятия не имею, как я буду использовать эту модель, поскольку у меня нет предопределенной библиотеки со всеми доступными командами, как у меня было с Opennlp. .
Подводя итог, мне нужно создать собственную модель для интеграции в Android-приложение, которое будет определять части входной речи. Приложение должно работать в автономном режиме, однако обучающая часть и другие действия по предварительной обработке могут выполняться онлайн.
Довольно просто обучать модели с помощью OpenNLP с вашими собственными данными либо с помощью инструментов командной строки, либо через API. Для маркировки частей речи см.: https://opennlp.apache.org/docs/1.5.3/manual/opennlp.html#tools.postagger.training
Найти POS предложения индийского языка с нуля — большая задача, для начала нужно создать огромный корпус с правильно аннотированными pos-тегами и обучить модель (которые уже есть для английского).
Таким образом, выполнимым подходом будет использование API-интерфейсов языкового перевода для перевода предложения на английский язык и выполнения вашей дальнейшей задачи/анализа.
Если у вас есть собственные данные, вы можете сослаться на это, чтобы написать собственный алгоритм тегирования POS.