Кэш L1 в графическом процессоре

Я вижу некоторые похожие термины при чтении памяти о иерархии графических процессоров, и, поскольку в прошлых версиях были некоторые архитектурные модификации, я не знаю, можно ли их использовать вместе или они имеют разные значения. Устройство M2000 с вычислительной совместимостью 5.2.

Верхний уровень (ближайший к конвейеру) — это кэш унифицированный L1/текстура, который составляет 24 КБ на SM. Это единый для инструкций и данных?

Ниже находится кэш L2, который также известен как память общий, которая совместно используется всеми SM. Согласно ./deviceQuery, размер L2 составляет 768 КБ. Если это совокупное значение, то каждый SM имеет 768 КБ/6 = 128 КБ. Однако, согласно руководство по программированию, разделяемая память составляет 96 КБ.

Что такое память постоянный и где она находится? Информации о его размере нет ни в метриках deviceQuery, ни в nvprof. Руководство по программированию говорит:

There are also two additional read-only memory spaces accessible by all threads: the constant and texture memory spaces. The global, constant, and texture memory spaces are optimized for different memory usages (see Device Memory Accesses). Texture memory also offers different addressing modes, as well as data filtering, for some specific data formats (see Texture and Surface Memory).
The global, constant, and texture memory spaces are persistent across kernel launches by the same application.

Ниже L2 находится память Глобальный, известная как память устройство, которая может быть 2 ГБ, 4 ГБ и ...

caching cuda gpu

18.04.2019 11:04

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

3 242

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Архитектура GPU NVIDIA имеет следующие пути доступа. Графический процессор может иметь дополнительные кэши в иерархии, представленной ниже.

Путь к глобальной, локальной памяти
- (СС3.*) Л1 -> Л2
- (CC5.-6.) L1TEX -> L2
- (CC7.*) L1TEX (LSU) -> L2
Путь для поверхности, текстуры (CC5./6.)
- (КК < 5) ТЕКС
- (CC5.-6.) L1TEX -> L2
- (CC7.*) L1TEX (TEX) -> L2
Путь к общему
- (СС3.*) Л1
- (CC5.-6.) Общая память
- (CC7.*) L1TEX (LSU)
Путь к непосредственной константе
- ... c[bank][offset] -> IMC - Immediate Constant Cache -> L2 Cache
Путь для индексированной константы
- LDC Rd, c[bank][offset] -> IDC — индексированный постоянный кэш -> кэш L2
Путь для обучения
- ICC — Кэш инструкций -> L2

Профилировщики NVIDIA CUDA (Nsight Compute, Nvidia Visual Profiler и Nsight VSE CUDA Profiler) имеют высокоуровневые диаграммы иерархии памяти, чтобы помочь вам понять, как логические запросы сопоставляются с оборудованием.

CC3.* Иерархия памяти

Для CC5./6. на каждый SM приходится два унифицированных кэша L1TEX. Каждый блок L1/TEX обслуживает 1 раздел SM. Каждый раздел SM имеет два подраздела (2 планировщика деформации). SM содержит отдельное ОЗУ и путь данных для общей памяти. Модуль L1TEX не поддерживает ни выборку инструкций, ни загрузку постоянных данных (через c[bank][offset]). Выборка инструкций и постоянная загрузка обрабатываются через отдельные иерархии кэша (см. выше). Модель программирования CUDA также поддерживает доступ к данным только для чтения (const) через L1TEX через адресное пространство глобальной памяти.

Кэш L2 совместно используется всеми механизмами в графическом процессоре, включая, помимо прочего, SM, механизмы копирования, видеодекодеры, видеокодировщики и контроллеры дисплея. Кэш L2 не разделяется клиентом. L2 не называется разделяемой памятью. В графических процессорах NVIDIA разделяемая память — это ОЗУ, локальное для SM, которое поддерживает эффективный нелинейный доступ.

Глобальная память — это адрес виртуальной памяти, который может включать:

выделенная память на микросхеме, называемая памятью устройства, видеопамятью или кадровым буфером в зависимости от контекста.
закрепленная системная память
незакрепленная системная память через унифицированную виртуальную память
одноранговая память

18.04.2019 15:37

Другие вопросы по теме

Метрика попадания в локальный кеш в профилировщике cuda

Может ли float3 использовать объединение памяти CUDA?

Инициализация данных CUDA

Добавить несколько векторов одновременно в cuda

Несовместимость среды выполнения/драйвера Cuda в контейнере докеров

Эффективность управления потоком

Эффективность FLOP в CUDA

Почему ввод и вывод для cufft сильно отличаются от традиционного fft?

Nvcc и clang не работают вместе при установке pytorch-gpu

В чем разница между «активностями графического процессора» и «вызовами API» в результатах «nvprof»?

Кэш L1 в графическом процессоре

Ответы 1

Другие вопросы по теме

Похожие вопросы