Метрика попадания в локальный кеш в профилировщике cuda

Для некоторых профилирований приложений CUDA я вижу, что значение локальной частоты попаданий (метрика local_hit_rate) равно 0%.

Я хочу выделить следующие понятия с этим значением.

  1. Приложение не имеет доступа к локальному кешу.

  2. Все обращения к локальному кешу были пропущены.

Как я могу найти ответ? Поскольку значения inst_compute_ld_st, ldst_issued и ldst_executed не равны нулю, можно ли отбросить первый вопрос? Или есть что-то еще?

Устройство M2000, которое является CC5.3 CC5.2.

M2000 не cc5.3

Robert Crovella 17.04.2019 23:20
Стоит ли изучать PHP в 2026-2027 годах?
Стоит ли изучать PHP в 2026-2027 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
0
1
341
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

nvprof поддерживает как события (необработанные счетчики), так и метрики. Их можно запросить с помощью следующих команд: nvprof --запрос-события nvprof --query-метрики

CC5./6. Метрики локальной памяти

  • local_load_transactions_per_request: среднее количество транзакций загрузки локальной памяти, выполненных для каждой загрузки локальной памяти.
  • local_store_transactions_per_request: среднее количество транзакций хранилища в локальной памяти, выполненных для каждого хранилища в локальной памяти.
  • local_load_transactions: количество транзакций загрузки локальной памяти.
  • local_store_transactions: количество транзакций хранилища в локальной памяти.
  • local_hit_rate: частота попаданий для локальных загрузок и хранилищ.
  • local_memory_overhead: Отношение трафика локальной памяти к общему трафику памяти между кэшами L1 и L2, выраженное в процентах.
  • local_load_throughput: пропускная способность при загрузке локальной памяти.
  • local_store_throughput: пропускная способность хранилища в локальной памяти.
  • inst_executed_local_loads: Инструкции по уровню деформации для локальных нагрузок
  • inst_executed_local_stores: Инструкции по уровню деформации для локальных магазинов.
  • l2_local_load_bytes: Байты, прочитанные из L2 для промахов в Unified Cache для локальных загрузок
  • l2_local_global_store_bytes: байты, записанные в L2 из Unified Cache для локальных и глобальных хранилищ. Это не включает глобальную атомарность.
  • local_load_requests: общее количество запросов на локальную загрузку от многопроцессорного
  • local_store_requests: общее количество запросов локального хранилища от многопроцессорного

local__request — это количество инструкций, выполняемых в локальной памяти через универсальное адресное пространство или локальное адресное пространство. На СС5./6.* Я не помню, включает ли это полностью предикативные инструкции.

local_*_transactions — это количество обращений к кешу, произошедших из-за размера (32-разрядного, 64-разрядного, ...) запроса и расхождения адресов запроса. Если это не ноль, то доступ к локальной памяти был осуществлен.

l2_local_*_bytes — это количество байтов данных, загружаемых/хранимых в кэш L2.

Другие вопросы по теме