Я пытаюсь использовать чат Llama 2 (через обнимающееся лицо) с параметрами 7B в Google Colab (Python 3.10.12). Я уже получил свой токен доступа через Meta. Я просто использую код, чтобы понять, как реализовать модель вместе с моим токеном доступа. Вот мой код:
!pip install transformers
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
token = "---Token copied from Hugging Face and pasted here---"
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-chat-hf", token=token)
model = AutoModelForCausalLM.from_pretrained("meta-llama/Llama-2-7b-chat-hf", token=token)
Он начинает загрузку модели, но когда доходит до загрузки осколков контрольной точки: он просто перестает работать и ошибок нет:
Просто бесплатная версия с 12,7 ГБ ОЗУ. Должно ли это требовать столько оперативной памяти?
В float32 это около 25 ГБ (но вам понадобится как оперативная память процессора, так и 25 ГБ оперативной памяти графического процессора). В bfloat16 это около 13 Гб, чего все равно недостаточно для размещения базового экземпляра Colab Cpu: huggingface.co/NousResearch/Llama-2-7b-chat-hf/discussions/3
Отлично, тогда я знаю, что проблема в оперативной памяти - кажется, мне нужно запросить у моего работодателя более качественное оборудование. Спасибо. Если вы превратите свой последний комментарий в ответ, я могу принять его и проголосовать за него.
Проблема заключается в том, что экземпляру Colab не хватает оперативной памяти. Судя по вашим комментариям, вы используете базовый экземпляр Colab с 12,7 ГБ оперативной памяти ЦП.
Для модели LLama вам понадобится:
Перейдите по этой ссылке для получения подробной информации о необходимых ресурсах: Huggingface.co/NousResearch/Llama-2-7b-chat-hf/discussions/3
Кроме того, если вы хотите только делать выводы (прогнозы) по модели, я бы рекомендовал использовать ее квантованные 4-битные или 8-битные версии. Оба могут работать на процессоре и не требуют много памяти.
Какой экземпляр вы используете? Возможно, вам просто не хватило памяти.