Mistral7B Размер ввода инструкций ограничен

недавно я настроил модель Mistral 7B Instruct v0.3 и развернул ее на конечной точке AWS Sagemaker. Но получил такие ошибки:

" Получена ошибка клиента (422) от первичного сервера с сообщением "{"error":"Ошибка проверки ввода: inputs токены + max_new_tokens должно быть <= 4096. Дано: 877 inputs токенов и 4096 max_new_tokens","error_type":"validation"} "."

Это означает, что я ограничен 4096 токенами. Но макс. токены должны быть следующими: Мистраль 7Б Инструкция v0.1 = 8192 Мистраль 7Б Инструкт v0.2,v0.3=32к

Я также разместил базовые модели Huggingface на конечных точках Sagemaker, и все они, похоже, ограничены 4096 токенами.

Кто-нибудь знает, как это исправить?

Стоит ли изучать PHP в 2026-2027 годах?
Стоит ли изучать PHP в 2026-2027 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
0
0
106
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Хорошо, я понял это.

Сначала я протестировал все параметры модели и тонкой настройки со значением 4096, которых было довольно много, так как все кратно 512. Это ничего не дало, так что это был провал. Выяснив, что это в основном означает, что ошибка связана с контейнером развертывания, я, по крайней мере, получил подсказку. После долгого гугления это превратилось в джекпот :)

Итак, для тех, у кого похожие проблемы, вот как это сделать: Вместо использования функций развертывания, перечисленных на странице Huggingface модели Mistral-7B-Instruct, я использовал функции, как написано здесь: https://github.com/aws-samples/Mistral-7B-Instruct-fine-tune-and-deploy-on-SageMaker/blob/main/Deploy_Mistral_7B_on_Amazon_SageMaker_with_vLLM.ipynb

По сути:

  1. Загрузите файл model.tar.gz (перейдите к шагу 3, если он уже распакован).
  2. Распакуйте его.
  3. Создайте файл serving.properties, как описано в ссылке выше.
  4. Поместите его в папку с остальными файлами модели.
  5. Снова упакуйте все файлы в model.tar.gz и загрузите их в корзину S3.
  6. Разверните конечную точку с помощью функций, использованных в ссылке выше.

Кроме того, я также нашел ссылку (https://github.com/awslabs/extending-the-context-length-of-open-source-llms/blob/main/MistralLite/sagemaker-tgi-custom/example_usage. ipynb), описывающий, как изменить среду Huggingface, что, вероятно, тоже помогает, но контейнер мне еще не удалось запустить. Но у меня есть одно решение, так что... хех~ ¯_(ツ)_/¯

Другие вопросы по теме