Что означает «I» в разделе «_IQ» и «_M» в этом названии «Meta-Llama-3-8B-Instruct-IQ3_M.gguf»?

Буду признателен, если кто-нибудь подскажет мне, что означает «I» в разделе «_IQ» и «_M» в имени «Meta-Llama-3-8B-Instruct-IQ3_M.gguf»???

Я искал и нашел, что означает «Q» (квантование), но не могу найти значения «I» и «M».

Как создать простое погодное приложение на Python с API OpenWeatherMap
Как создать простое погодное приложение на Python с API OpenWeatherMap
Этот учебник проведет вас через процесс создания простого погодного приложения с помощью Python и OpenWeatherMap API.
Почему Python - идеальный выбор для проекта AI и ML
Почему Python - идеальный выбор для проекта AI и ML
Блог, которым поделился Harikrishna Kundariya в нашем сообществе Developer Nation Community.
Анализ настроения постов в Twitter с помощью Python, Tweepy и Flair
Анализ настроения постов в Twitter с помощью Python, Tweepy и Flair
Анализ настроения текстовых сообщений может быть настолько сложным или простым, насколько вы его сделаете. Как и в любом ML-проекте, вы можете выбрать...
2
0
199
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Квантование IQ использует матрицу важности (Imatrix) для определения важности различных активаций модели во время процесса квантования. Это альтернативный метод квантования по сравнению с K-квантованием. IQ-квантование, как правило, является более продвинутым и более качественным методом квантования, чем устаревшие методы K-кванта. Тем не менее, оптимальный выбор зависит от целевого оборудования и требований к производительности.

Суффиксы «M», «S», «XS» и «XXS» в названиях IQ-квантования относятся к размеру модели, причем «M» — самый большой, а «XXS» — самый маленький. Например, разрядность не равна точно 3, поскольку de M использует ~3,6 бита на параметр, а XXS использует ~3,2 бита.

спасибо Алексу за то, что поделились информацией. Где вы узнали эту информацию? Я бы тоже хотел это знать и использовать их в качестве справочного материала в будущем.

Franva 03.07.2024 14:33

Это со страницы github llama.cpp и других источников. Квантование IQ подходит для 4 бит, но для 4 и выше используйте квантование K.

Alex Byrth 16.07.2024 03:03

Другие вопросы по теме