Выполняет ли формат gguf квантование модели, даже если оно уже квантовано с помощью LORA?
Привет ! Я новичок в Llms, и я настроил модель CODELLAMA на Kaggle с помощью LORA. Я объединил ее и подтолкнул к обнимающему лицу. Я хочу знать, квантована ли модель уже с помощью LORA, почему нам нужно повторно квантовать с помощью gguf .
Квантование модели и LoRA — это разные концепции.
Как вы знаете, LoRA — это своего рода метод точной настройки параметров, который уменьшает количество обучаемых параметров.
Принимая во внимание, что квантование модели уменьшает размер модели путем преобразования весов модели из представления с более высокой точностью (например, FP32) в представления с более низкой точностью (например, bfloat16 или INT8).
@Samar Да, он квантует модель. И есть вероятность, что вы используете технику под названием QLoRA. В вашем случае QLoRA квантует предварительно обученную модель до 4 бит, а затем применяет LoRA. Вот оригинальная статья, в которой был представлен QLoRA. arxiv.org/abs/2305.14314
@Самар huggingface.co/blog/4bit-transformers-bitsandbytes
«Спасибо, Джево Ким. Меня немного смущает, что происходит, когда мы загружаем модель с помощью
load_in_4bit=True
иtorch_dtype=torch.float16
в этом коде:python model = AutoModelForCausalLM.from_pretrained( base_model, load_in_4bit=True, torch_dtype=torch.float16, device_map = "auto")
Разве он не квантует модель?»