Развертывание ламы на VertexAI

Я хочу создать чат-бота для Telegram с помощью llama 3. Я ищу различные способы сделать это. Кто-то предложил мне использовать VertexAI в Google, но я не могу понять цены на Ламу 3. Я нашел информацию только о ценах на модели Gemini, развернутые на VertexAI. Другой подход — создать виртуальную машину Google Cloud и построить там докер с ламой, но и в этом случае я не знаком с ценами. Можете ли вы помочь мне понять, какой подход будет лучшим?

Я нашел некоторую информацию об их ценах в документации Google VertexAI, но они были очень неясны.

Для этого вы можете найти образец в Vertex Model Garden.

gogasca 09.07.2024 20:03
Создание приборной панели для анализа данных на GCP - часть I
Создание приборной панели для анализа данных на GCP - часть I
Недавно я столкнулся с интересной бизнес-задачей - визуализацией сбоев в цепочке поставок лекарств, которую могут просматривать врачи и...
0
1
58
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Vertex AI Model Garden — лучший вариант для поиска и развертывания Llama3. Воспользуйтесь этой ссылкой, чтобы попасть в сад моделей лам. Это репозиторий моделей, в котором вы можете напрямую развернуть (и запустить вывод) Llama3 с двумя вариантами:

  • Vertex AI: полностью управляемая платформа с автоматически настраиваемой конечной точкой
  • ГКЕ (куберентес)

Оба варианта требуют, чтобы ваш проект GCP имел достаточную квоту ускорителя (TPU или GPU). Например, развертывание Vertex AI для Llama3-8B-chat-001 можно развернуть на компьютерах TPU ct5lp-highcpu-4t или GPU g2-standard-12.

Для развертывания в GKE требуется подготовить кластер автопилота GKE, но сад моделей предоставляет большую часть конфигурации GKE (файлы манифеста) для развертывания модели и выделения TPU/GPU.

Подход Vertex AI будет намного проще с точки зрения инфраструктуры, а также оптимизации ускорителя. Вы можете подготовить виртуальную машину GCE и установить Docker, но это потребует дополнительных усилий. В первую очередь при настройке ускорителей, таких как TPU/GPU, на голых виртуальных машинах.

Ознакомьтесь с моделями, обученными по индивидуальному заказу, чтобы узнать цены.

Другие вопросы по теме