Как интерпретировать атрибут model_max_len объекта PreTrainedTokenizer в Huggingface Transformers

Я пытался проверить максимальную длину, разрешенную emilyalsentzer/Bio_ClinicalBERT, и после этих строк кода:

model_name = "emilyalsentzer/Bio_ClinicalBERT"
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer

Я получил следующее:

PreTrainedTokenizerFast(name_or_path='emilyalsentzer/Bio_ClinicalBERT', vocab_size=28996, model_max_len=1000000000000000019884624838656, is_fast=True, padding_side='right', truncation_side='right', special_tokens = {'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})

Это правда? Максимальная длина модели (по количеству токенов, как написано здесь) настолько велика? Тогда как мне это интерпретировать?

Ваше здоровье!

Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
1
0
53
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

В этой теме рассматривается аналогичный вопрос.
В соответствии с этим это связано с ошибкой, вызванной тем, что максимальная длина не указана в файле конфигурации токенизатора (tokenizer_config.json).
Согласно этому, решением будет изменить файл конфигурации.

документы также говорят об этом

Если значение не указано, по умолчанию будет VERY_LARGE_INTEGER (int(1e30))

вы можете найти похожие проблемы, связанные с этим

Другие вопросы по теме