Я использую модель команды R+ в Azure. Я знаю, что Command R+ поддерживает длину контекста 128 КБ. Теперь я хочу знать максимальный лимит токенов для выходного ответа на команду R+.
Таким образом, я могу передать предельное значение max_tokens соответственно.
В практических целях и для обеспечения эффективного использования обычно для параметра max_tokens задается значение, которое гарантирует, что ваш ввод и вывод вместе не превысят общую длину контекста. Например, если ожидается, что ваше приглашение ввода будет использовать 1000 токенов, вы можете установить max_tokens равным 127 000 токенов, хотя в реальных приложениях более типично устанавливать его примерно в диапазоне от 2000 до 4000 токенов для управления одним ответом. Эффективная производительность и время отклика.


Модель Cohere Command R+ в Azure поддерживает длину контекста до 128 000 токенов. Для генерации ответов максимальное количество токенов, которые могут быть созданы, также определяется этим общим ограничением контекста.

Конкретный лимит выходных токенов для ответов не ограничен явно фиксированным числом, но обычно определяется параметром max_tokens, который вы установили в своем запросе. Этот параметр определяет, сколько токенов вы хотите, чтобы модель сгенерировала как часть ответа. Учитывая длину контекста в 128 000 токенов, вы можете выделить часть этого количества для вывода, принимая во внимание длину приглашения для ввода.
В практических целях и для обеспечения эффективного использования обычно для параметра max_tokens задается значение, которое гарантирует, что ваш ввод и вывод вместе не превысят общую длину контекста. Например, если ожидается, что в приглашении для ввода будет использоваться 1000 токенов, вы можете установить max_tokens на 127 000 токенов, хотя в реальных приложениях более типично установить его примерно на 2000–4000 токенов для одного ответа для управления. Эффективная производительность и время отклика.
Вот как вы можете установить это в своем вызове API:
import cohere
co = cohere.Client('your-api-key')
response = co.generate(
model='command-r-plus',
prompt='Your prompt text goes here',
max_tokens=2000, # Adjust this value based on your needs and the model's limits
temperature=0.5
)
print('Generated text:', response.generations[0].text)
Обязательно отслеживайте и корректируйте настройки max_tokens в зависимости от требований вашего приложения и сложности решаемых задач.
Использованная литература:
Модель Cohere Command R+ в Azure поддерживает длину контекста до 128 000 токенов. Для генерации ответов максимальное количество токенов, которые могут быть созданы, также определяется этим общим ограничением контекста. Конкретный лимит выходных токенов не ограничен явно фиксированным числом, а определяется параметром max_tokens, который вы установили в своем запросе. Этот параметр определяет, сколько токенов вы хотите, чтобы модель сгенерировала как часть ответа. Учитывая длину контекста в 128 000 токенов, вы можете выделить часть этого количества для вывода, принимая во внимание длину приглашения для ввода.