Rasa, как использовать японский язык (tokennization-mecab)

RASA известен как эффективный фреймворк для ботов. Такой стек, как RASA NLU и RASA Core, действительно полезен.

Я протягиваю его и обнаруживаю, что это потрясающе, особенно с английским текстом. Я еще раз пробую японский текст (альфа-поддержка простора). Я использовал его с конвейером тензорного потока, я застрял, я не могу понять, как использовать внешнюю токенизацию, такую ​​как Mecab.

Кто-нибудь испытал это ??

0
0
538
2

Ответы 2

Конвейер tensorflow работает с любым языком, в котором используются символы пробела. Поскольку это не относится к японцам, вам нужно создать свой собственный токенизатор.

Вы можете сделать это, расширив классы Tokenizer и Component, например:

class MecabTokenizer(Tokenizer, Component):

# fill with your code

Затем вы можете использовать свой собственный класс в конвейере NLU, указав путь к модулю в имени (также описано в документации), например:

pipeline:
- name: "path.to.MecabTokenizer"
# other components

Кто-то пробовал что-то подобное здесь, может, вы воспользуетесь этим или возьмете какой-то шаблон.

Я добавил пользовательский компонент с помощью токенизатора Mecab. У меня он отлично работает с японским текстом.

Ссылка: Rasa_Японский

Другие вопросы по теме