Буду признателен, если кто-нибудь подскажет мне, что означает «I» в разделе «_IQ» и «_M» в имени «Meta-Llama-3-8B-Instruct-IQ3_M.gguf»???
Я искал и нашел, что означает «Q» (квантование), но не могу найти значения «I» и «M».
Квантование IQ использует матрицу важности (Imatrix) для определения важности различных активаций модели во время процесса квантования. Это альтернативный метод квантования по сравнению с K-квантованием. IQ-квантование, как правило, является более продвинутым и более качественным методом квантования, чем устаревшие методы K-кванта. Тем не менее, оптимальный выбор зависит от целевого оборудования и требований к производительности.
Суффиксы «M», «S», «XS» и «XXS» в названиях IQ-квантования относятся к размеру модели, причем «M» — самый большой, а «XXS» — самый маленький. Например, разрядность не равна точно 3, поскольку de M использует ~3,6 бита на параметр, а XXS использует ~3,2 бита.
Это со страницы github llama.cpp и других источников. Квантование IQ подходит для 4 бит, но для 4 и выше используйте квантование K.
спасибо Алексу за то, что поделились информацией. Где вы узнали эту информацию? Я бы тоже хотел это знать и использовать их в качестве справочного материала в будущем.