Я создаю пользовательскую модель из учебного набора в Microsoft Translator Text для перевода с японского (JA) на английский (EN) язык. Должны ли обучающие данные быть токенизированы, и предпочтительнее ли использовать строчные буквы?
В японском языке символы кавычек (「」 и 『』) отличаются от английских. В обучающих данных JA они должны быть токенизированы (разделены пробелом)? В параллельных обучающих данных EN следует использовать кавычки EN ("") или кавычки JA?
Помимо этого, желательна ли какая-либо другая предварительная обработка, например преобразование текста во все строчные буквы? Текстовый регистр, возвращаемый моделью при развертывании, не имеет значения.
Оставьте учебный материал в том виде, в котором вы представили бы его читателю, с сохранением регистра и пунктуации. Регистр и знаки препинания имеют значение в переводе, это важный сигнал для получения движком. Нет причин применять собственную токенизацию, это будет мешать токенизации системы. Лучший учебный материал выровнен по предложениям или сегментам, как если бы вы получили его в TMX или XLIFF при экспорте из TM.