Вопрос об архитектуре нейронной сети Transformer - матрицы запросов, ключей и значений

пожалуйста, помогите мне понять матрицы запросов, ключей и значений в архитектуре трансформатора. Сколько матриц запросов, ключей и значений должно быть в одном кодировщике? Например, у меня всего одна голова внимания и десять вложений, значит ли это, что должен быть только один набор матриц (под словом "набор" я имею в виду три матрицы - запрос, ключ и матрица значений), или это означает, что каждый из у десяти вложений должен быть свой набор матриц?

Пробовал создавать энкодер на "обрабатывающем" языке программирования с одним набором матриц, результаты вывода странные (вроде результирующие векторы почти одинаковые, а должны быть разные), вот и пришел сюда для уточнения теории , может я что-то не так делаю.

Стоит ли изучать PHP в 2023-2024 годах?
Стоит ли изучать PHP в 2023-2024 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
0
0
53
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Трудно попытаться ответить на ваш вопрос, он кажется неточным на многих уровнях.

Одиночный слой само-внимания с одной головой будет иметь один ключ, одно значение, одну матрицу запросов.

Эти матрицы будут создаваться одинаково, иметь одинаковые размеры, они будут умножаться на вход таким же образом, но полученные тензоры будут использоваться по-разному при вычислении финальной оценки внимания:

Можете ли вы уточнить, что вы подразумеваете под «десятью вложениями»? 10 может относиться к разным вещам, например:

  • размер партии
  • размер вашего словарного запаса (количество всех возможных токенов, то есть букв, слов или подслов)
  • количество выходов из слоя внедрения
  • количество токенов в последовательности (предложении), которую вы вводите в сеть (или генерируете с помощью сети, в зависимости от задачи, которую вы пытаетесь решить)

Под «десятью вложениями» я подразумеваю, например, десять слов в качестве входных данных. Спасибо за объяснение.

Alemba 27.01.2023 21:31

Другие вопросы по теме