Я использую Tesseract 4.0.0-beta.1-370-g8b64 на Ubuntu 16.04, собирая его из исходников. У меня есть каталог файлов шрифтов, и из документация по шрифтам кажется, что вам нужно перечислить пользовательские шрифты в training/language_specific.sh и langdata/font_properties. Также кажется, что шрифты перечислены в font_properties в каком-то конкретном формате, однако я нигде не могу найти этот формат. Есть ли ссылка или инструкция с вопросом, как это сделать?





Это описано в вики обучения Tesseract:
Каждая строка файла font_properties отформатирована следующим образом: fontnameitalicboldfixedseriffraktur
где fontname - это строка с названием шрифта (без пробелов!), а italic, bold, fixed, serif и fraktur - все простые флаги 0 или 1, указывающие, имеет ли шрифт указанное свойство.
Пример:
timesitalic 1 0 0 1 0