Я пытался проверить максимальную длину, разрешенную emilyalsentzer/Bio_ClinicalBERT, и после этих строк кода:
model_name = "emilyalsentzer/Bio_ClinicalBERT"
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer
Я получил следующее:
PreTrainedTokenizerFast(name_or_path='emilyalsentzer/Bio_ClinicalBERT', vocab_size=28996, model_max_len=1000000000000000019884624838656, is_fast=True, padding_side='right', truncation_side='right', special_tokens = {'unk_token': '[UNK]', 'sep_token': '[SEP]', 'pad_token': '[PAD]', 'cls_token': '[CLS]', 'mask_token': '[MASK]'})
Это правда? Максимальная длина модели (по количеству токенов, как написано здесь) настолько велика? Тогда как мне это интерпретировать?
Ваше здоровье!
В этой теме рассматривается аналогичный вопрос.
В соответствии с этим это связано с ошибкой, вызванной тем, что максимальная длина не указана в файле конфигурации токенизатора (tokenizer_config.json
).
Согласно этому, решением будет изменить файл конфигурации.
документы также говорят об этом
Если значение не указано, по умолчанию будет VERY_LARGE_INTEGER (int(1e30))
вы можете найти похожие проблемы, связанные с этим