Я использую Facebook Fasttext для классификации текста. Я хотел знать, как библиотека fasttext обрабатывает числа в текстовой строке, предоставляемой в качестве входных данных для векторизации слов.
Приводит ли fasttext тип каждого числа в виде строки перед созданием векторов слов?
Например, 1124 к «1124»
Или любое другое преобразование / предварительная обработка выполняется в фоновом режиме перед обучением?
Например, 1124 к "один, два, четыре"
Каким должен быть наиболее оптимальный подход к обработке числовых данных, если мой вводимый текст в fasttext содержит числа?
Fasttext не выполняет никакой предварительной обработки числовых токенов. С ними обращаются как с другими «словами», разделенными пробелами.
Если у вас уже нет конкретной проблемы с fasttext и числами во вводе, я бы не стал беспокоиться о том, что fasttext делает с числами. Просто используйте его как обычно.
Если у вас много чисел и они вызывают проблемы - это возможно, поскольку fasttext, вероятно, не имеет каких-либо полезных векторов для большинства конкретных чисел - вы можете предварительно обработать свой ввод, чтобы заменить их <NUMBER>
или другим фиктивным токеном. Таким образом, эти предложения будут такими же, как и в fasttext:
Хотите ли вы относиться к ним как к одинаковым или нет, зависит от вашего приложения.