BigBird, или Разреженное внимание к себе: Как реализовать разреженную матрицу?

Этот вопрос связан с новой статьей: Большая Птица: Трансформеры для более длинных последовательностей . В основном, о реализации Разреженного Внимания (что указано в Дополнительных материалах, часть D). В настоящее время я пытаюсь реализовать его в PyTorch.

Они предлагают новый способ ускорить вычисления, заблокировав исходный запрос и ключевые матрицы (см. ниже)

Когда вы выполняете умножение матриц на шаге (b), вы получаете что-то вроде этого: .

Поэтому мне было интересно: как бы вы перешли от этого представления (изображение выше) к разреженной матрице (используя PyTorch, см. ниже)? В статье просто говорится: «просто измените форму результата», и я не знаю простых способов сделать это (особенно, когда у меня есть несколько блоков в разных положениях (см. шаг (c) на первом изображении).

РАЗРЕШЕНИЕ: У Huggingface есть реализация BigBird в pytorch.

Стоит ли изучать PHP в 2023-2024 годах?
Стоит ли изучать PHP в 2023-2024 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
2
0
1 138
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Я в конечном итоге следую рекомендациям в документе. Когда дело доходит до распаковки результата, я использую: torch.sparse_coo_tensor

Обновлено: Разреженные тензоры все еще требуют памяти! более эффективное решение описано здесь

у вас есть реализация механизма разреженного внимания?

javac 16.03.2021 16:48

вы можете посмотреть на реализацию DeepSpeed

Germans Savcisens 16.03.2021 21:46

ОБНОВЛЕНИЕ: у Huggingface есть реализация BigBird в pytorch (вы можете посмотреть их код)

Germans Savcisens 26.03.2021 13:50

Спасибо, я собираюсь проверить, я также ищу простую технику для самостоятельного обучения, пожалуйста, дайте мне знать, если у вас есть информация об этом

javac 26.03.2021 14:46

Другие вопросы по теме