В настоящее время я могу играть только с V100 на GCP. Я понимаю, что могу загрузить LLM с 4-битным квантованием, как показано ниже. Однако (предположительно из-за квантования) загрузка этой модели занимает до 10 минут.
Есть ли способ ускорить процесс загрузки?
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
device = "cuda" # the device to load the model onto
model_id = "mistralai/Mistral-7B-Instruct-v0.2"
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_use_double_quant=True,
bnb_4bit_quant_type = "nf4",
bnb_4bit_compute_dtype=torch.bfloat16
)
model = AutoModelForCausalLM.from_pretrained(model_id, quantization_config=bnb_config, device_map = "auto")





Существует метод, называемый загрузкой модели с нулевым копированием, который использует Ray для загрузки модели. Эта средняя статья может помочь вам понять, как реализовать загрузку модели с помощью Ray Как загружать модели PyTorch в 340 раз быстрее с помощью Ray
Вы не предоставили подробной информации о настройке докера. Но да, каждый раз, когда вы запускаете этот докер, вам придется загружать файлы, пока вы не создадите свой собственный образ, который будет копировать файлы модели в докер, тогда вы можете использовать параметр cache_dir в from_pretrained, чтобы указать местоположение вашей модели.
Я могу загрузить llama3 8b в Tesla M40 за несколько секунд.
М40 старше и медленнее :)
@sachinruk только что вернулся домой и [00:23<00:00, 4,75 с/ит] вот сколько времени нужно, чтобы загрузить llama3 в графический процессор
Насколько я понимаю, чем M40 отличается от экземпляра P100 или экземпляра T4?