Я развернул модель Llama 3 с помощью кнопки «Развернуть» на карте сада модели Llama 3 от Vertex AI: https://pantheon.corp.google.com/vertex-ai/publishers/meta/model-garden/llama3
Я могу сделать запрос, используя боковую панель «Попробуйте Llama 3» на этой странице, и, похоже, она работает с моей развернутой моделью + конечной точкой. Далее я хотел бы попробовать сделать запрос с помощью Curl или Python. На странице пользовательского интерфейса конечной точки также есть функция «образец запроса», но она гораздо менее полезна/очень универсальна, а не настроена.
Так есть ли у кого-нибудь пример запроса (для этой модели или другой)?
В частности, для экземпляров и параметров JSON. Параметры, которые я тоже, возможно, смогу выяснить, но я понятия не имею, что такое экземпляр в этом контексте? Кажется, это наиболее близкий вопрос: Отправка HTTP-запроса, конечная точка Google Vertex AI
..Google Cloud любит называть что-то в общих чертах, не раскрывая подробностей о том, что это такое, а затем ожидать чего-то очень конкретного в качестве значения.
изменить: Нашел документы по этому методу GCP: https://cloud.google.com/vertex-ai/docs/reference/rest/v1/projects.locations.endpoints/predict
который дает некоторое описание, но «Экземпляры, которые являются входными данными для вызова прогнозирования». на самом деле это не так уж и полезно.
Приносим извинения за неудачный опыт. На данный момент лучший справочник — это блокнот .
Вот соответствующий фрагмент:
prompt = "What is a car?" # @param {type: "string"}
max_tokens = 50 # @param {type:"integer"}
temperature = 1.0 # @param {type:"number"}
top_p = 1.0 # @param {type:"number"}
top_k = 1.0 # @param {type:"number"}
raw_response = False # @param {type:"boolean"}
# Overides parameters for inferences.
# If you encounter the issue like `ServiceUnavailable: 503 Took too long to respond when processing`,
# you can reduce the max length, such as set max_tokens as 20.
instances = [
{
"prompt": prompt,
"max_tokens": max_tokens,
"temperature": temperature,
"top_p": top_p,
"top_k": top_k,
"raw_response": raw_response
}
]
Но обратите внимание, что полный JSON (например, для отправки с помощью curl
):
{
"instances": [
{
"prompt": prompt,
"max_tokens": max_tokens,
"temperature": temperature,
"top_p": top_p,
"top_k": top_k,
"raw_response": raw_response
}
]
}
Кроме того, чтобы ответить на вопрос «что такое экземпляры?» Вопрос, похоже, что экземпляры в запросе на завивку и SDK помечены как параметры в представлении карты модели «Попробуйте Llama 3». Тогда как параметры можно оставить пустыми. Однако это также может изменить модель к модели.
Потрясающе, спасибо! Блокноты кажутся лучшей документацией. Этот бывший работал у меня:
curl -X POST -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" https://us-east4-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/us-east4/endpoints/${ENDPOINT_ID}:predict -d "@input-json"
и файл ввода-json:{ "instances": [ { "prompt": "What is the peridodic element for gold?", "max_tokens": 50, "temperature": 1.0, "top_p": 1.0, "top_k": 1, "raw_response": "False", } ], }