Я хочу понять, определяется ли продолжительность обучения номером документа? Скажем, 100 документов стоят 4 часа, а 200 документов - 8 часов? Я не вижу такой линейной зависимости в своей практике.
В настоящее время время обучения не зависит напрямую от размера набора данных или меток. Наше обучение бэкэнду состоит из нескольких компонентов. Некоторые из них зависят от размера набора данных, а некоторые нет. Общий конечный результат, однако, заключается в том, что самый длинный полюс определяет окончательное время обучения, и это обычно не зависит напрямую от размера набора данных.
В одном примере мы видим 3,5 часа обучения общедоступному набору данных Kaggle HappyDB, который содержит около 12 000 элементов.