Я хочу создать чат-бота для Telegram с помощью llama 3. Я ищу различные способы сделать это. Кто-то предложил мне использовать VertexAI в Google, но я не могу понять цены на Ламу 3. Я нашел информацию только о ценах на модели Gemini, развернутые на VertexAI. Другой подход — создать виртуальную машину Google Cloud и построить там докер с ламой, но и в этом случае я не знаком с ценами. Можете ли вы помочь мне понять, какой подход будет лучшим?
Я нашел некоторую информацию об их ценах в документации Google VertexAI, но они были очень неясны.
Vertex AI Model Garden — лучший вариант для поиска и развертывания Llama3. Воспользуйтесь этой ссылкой, чтобы попасть в сад моделей лам. Это репозиторий моделей, в котором вы можете напрямую развернуть (и запустить вывод) Llama3 с двумя вариантами:
Оба варианта требуют, чтобы ваш проект GCP имел достаточную квоту ускорителя (TPU или GPU). Например, развертывание Vertex AI для Llama3-8B-chat-001 можно развернуть на компьютерах TPU ct5lp-highcpu-4t или GPU g2-standard-12.
Для развертывания в GKE требуется подготовить кластер автопилота GKE, но сад моделей предоставляет большую часть конфигурации GKE (файлы манифеста) для развертывания модели и выделения TPU/GPU.
Подход Vertex AI будет намного проще с точки зрения инфраструктуры, а также оптимизации ускорителя. Вы можете подготовить виртуальную машину GCE и установить Docker, но это потребует дополнительных усилий. В первую очередь при настройке ускорителей, таких как TPU/GPU, на голых виртуальных машинах.
Ознакомьтесь с моделями, обученными по индивидуальному заказу, чтобы узнать цены.
Для этого вы можете найти образец в Vertex Model Garden.