Я вижу некоторые похожие термины при чтении памяти о иерархии графических процессоров, и, поскольку в прошлых версиях были некоторые архитектурные модификации, я не знаю, можно ли их использовать вместе или они имеют разные значения. Устройство M2000 с вычислительной совместимостью 5.2.
Верхний уровень (ближайший к конвейеру) — это кэш унифицированный L1/текстура, который составляет 24 КБ на SM. Это единый для инструкций и данных?
Ниже находится кэш L2, который также известен как память общий, которая совместно используется всеми SM. Согласно ./deviceQuery, размер L2 составляет 768 КБ. Если это совокупное значение, то каждый SM имеет 768 КБ/6 = 128 КБ. Однако, согласно руководство по программированию, разделяемая память составляет 96 КБ.
Что такое память постоянный и где она находится? Информации о его размере нет ни в метриках deviceQuery, ни в nvprof. Руководство по программированию говорит:
There are also two additional read-only memory spaces accessible by all threads: the constant and texture memory spaces. The global, constant, and texture memory spaces are optimized for different memory usages (see Device Memory Accesses). Texture memory also offers different addressing modes, as well as data filtering, for some specific data formats (see Texture and Surface Memory).
The global, constant, and texture memory spaces are persistent across kernel launches by the same application.
Ниже L2 находится память Глобальный, известная как память устройство, которая может быть 2 ГБ, 4 ГБ и ...





Архитектура GPU NVIDIA имеет следующие пути доступа. Графический процессор может иметь дополнительные кэши в иерархии, представленной ниже.
Профилировщики NVIDIA CUDA (Nsight Compute, Nvidia Visual Profiler и Nsight VSE CUDA Profiler) имеют высокоуровневые диаграммы иерархии памяти, чтобы помочь вам понять, как логические запросы сопоставляются с оборудованием.
Для CC5./6. на каждый SM приходится два унифицированных кэша L1TEX. Каждый блок L1/TEX обслуживает 1 раздел SM. Каждый раздел SM имеет два подраздела (2 планировщика деформации). SM содержит отдельное ОЗУ и путь данных для общей памяти. Модуль L1TEX не поддерживает ни выборку инструкций, ни загрузку постоянных данных (через c[bank][offset]). Выборка инструкций и постоянная загрузка обрабатываются через отдельные иерархии кэша (см. выше). Модель программирования CUDA также поддерживает доступ к данным только для чтения (const) через L1TEX через адресное пространство глобальной памяти.
Кэш L2 совместно используется всеми механизмами в графическом процессоре, включая, помимо прочего, SM, механизмы копирования, видеодекодеры, видеокодировщики и контроллеры дисплея. Кэш L2 не разделяется клиентом. L2 не называется разделяемой памятью. В графических процессорах NVIDIA разделяемая память — это ОЗУ, локальное для SM, которое поддерживает эффективный нелинейный доступ.
Глобальная память — это адрес виртуальной памяти, который может включать: