Как библиотека fasttext Facebook обрабатывает числовые данные на входе для векторизации слов?

Я использую Facebook Fasttext для классификации текста. Я хотел знать, как библиотека fasttext обрабатывает числа в текстовой строке, предоставляемой в качестве входных данных для векторизации слов.

  1. Приводит ли fasttext тип каждого числа в виде строки перед созданием векторов слов?

    Например, 1124 к «1124»

  2. Или любое другое преобразование / предварительная обработка выполняется в фоновом режиме перед обучением?

    Например, 1124 к "один, два, четыре"

Каким должен быть наиболее оптимальный подход к обработке числовых данных, если мой вводимый текст в fasttext содержит числа?

Почему Facebook остановился на PHP
Почему Facebook остановился на PHP
PHP имеет долгую историю с Facebook, и это был основной язык программирования, использовавшийся для создания сайта в первые годы его существования....
2
0
665
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Fasttext не выполняет никакой предварительной обработки числовых токенов. С ними обращаются как с другими «словами», разделенными пробелами.

Если у вас уже нет конкретной проблемы с fasttext и числами во вводе, я бы не стал беспокоиться о том, что fasttext делает с числами. Просто используйте его как обычно.

Если у вас много чисел и они вызывают проблемы - это возможно, поскольку fasttext, вероятно, не имеет каких-либо полезных векторов для большинства конкретных чисел - вы можете предварительно обработать свой ввод, чтобы заменить их <NUMBER> или другим фиктивным токеном. Таким образом, эти предложения будут такими же, как и в fasttext:

  1. Я съел 1023 апельсина.
  2. Я съел 1024 апельсина.

Хотите ли вы относиться к ним как к одинаковым или нет, зависит от вашего приложения.

Другие вопросы по теме