CUDA: упаковка выделения памяти устройства в C++

Сейчас я начинаю использовать CUDA и должен признать, что немного разочарован C API. Я понимаю причины выбора C, но если бы язык был основан на C++, некоторые аспекты были бы намного проще, например. выделение памяти устройства (через cudaMalloc).

Я планировал сделать это сам, используя перегруженный operator new с размещением new и RAII (две альтернативы). Мне интересно, есть ли какие-то оговорки, которых я пока не заметил. Код кажется для работы, но мне все еще интересно узнать о потенциальных утечках памяти.

Использование кода RAII будет следующим:

CudaArray<float> device_data(SIZE);
// Use `device_data` as if it were a raw pointer.

Возможно, в этом контексте класс является излишним (тем более, что вам все равно придется использовать cudaMemcpy, класс, инкапсулирующий только RAII), поэтому другим подходом будет размещение new:

float* device_data = new (cudaDevice) float[SIZE];
// Use `device_data` …
operator delete [](device_data, cudaDevice);

Здесь cudaDevice просто действует как тег, вызывающий перегрузку. Однако, поскольку при обычном размещении new это будет указывать на размещение, я считаю синтаксис странно согласованным и, возможно, даже более предпочтительным, чем использование класса.

Буду признателен за критику любого рода. Может быть, кто-нибудь знает, планируется ли что-то в этом направлении в следующей версии CUDA (которая, как я слышал, улучшит ее поддержку C++, что бы они под этим ни подразумевали).

Итак, мой вопрос состоит из трех частей:

Является ли моя перегрузка new семантически правильной? Утечка памяти?
Есть ли у кого-нибудь информация о будущих разработках CUDA, которые пойдут в этом общем направлении (давайте посмотрим правде в глаза: интерфейсы C в C++ s * ck)?
Как я могу продолжить это последовательно (есть другие API-интерфейсы, которые следует учитывать, например, есть не только память устройства, но также хранилище постоянной памяти и память текстуры)?

// Singleton tag for CUDA device memory placement.
struct CudaDevice {
    static CudaDevice const& get() { return instance; }
private:
    static CudaDevice const instance;
    CudaDevice() { }
    CudaDevice(CudaDevice const&);
    CudaDevice& operator =(CudaDevice const&);
} const& cudaDevice = CudaDevice::get();

CudaDevice const CudaDevice::instance;

inline void* operator new [](std::size_t nbytes, CudaDevice const&) {
    void* ret;
    cudaMalloc(&ret, nbytes);
    return ret;
}

inline void operator delete [](void* p, CudaDevice const&) throw() {
    cudaFree(p);
}

template <typename T>
class CudaArray {
public:
    explicit
    CudaArray(std::size_t size) : size(size), data(new (cudaDevice) T[size]) { }

    operator T* () { return data; }

    ~CudaArray() {
        operator delete [](data, cudaDevice);
    }

private:
    std::size_t const size;
    T* const data;

    CudaArray(CudaArray const&);
    CudaArray& operator =(CudaArray const&);
};

О используемом здесь синглтоне: Да, я в курсе его недостатков. Однако в данном контексте это не актуально. Все, что мне здесь было нужно, это небольшой тег, который нельзя было скопировать. Все остальное (например, соображения многопоточности, время инициализации) не применяются.

Ваша реализация singleton в лучшем случае опасна. Пожалуйста, прочтите множество других дискуссий о том, как создать синглтон на C++.

— 18.11.2008 23:42

Да, ты прав. Однако см. Мои новые пояснения под кодом.

— 19.11.2008 00:23

c++ cuda raii placement-new

18.11.2008 21:59

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

8 964

Перейти к ответу Данный вопрос помечен как решенный

Ответы 4

Ответ принят как подходящий

Я бы пошел с новым подходом к размещению. Затем я бы определил класс, соответствующий интерфейсу std :: allocator <>. Теоретически вы можете передать этот класс в качестве параметра шаблона в std :: vector <> и std :: map <> и так далее.

Остерегайтесь, я слышал, что делать такие вещи сопряжено с трудностями, но, по крайней мере, вы узнаете намного больше о STL таким образом. И вам не нужно заново изобретать свои контейнеры и алгоритмы.

Не думал о распределителе. На самом деле я делал это раньше, так что это не должно быть слишком сложно.

— 19.11.2008 11:06

19.11.2008 04:26

Есть несколько проектов, которые пытаются что-то подобное, например CUDPP.

Тем временем, однако, я реализовал свой собственный распределитель, и он хорошо работает и прост (> 95% шаблонного кода).

Ссылка stdcuda мертва.

— 22.02.2018 12:33

@einpoklum Спасибо. Разумно предположить, что ответ 10-летней давности в какой-то момент устареет. Я удалил ссылку.

— 22.02.2018 13:44

19.11.2008 20:55

Тем временем были некоторые дальнейшие разработки (не столько с точки зрения API CUDA, но по крайней мере с точки зрения проектов, пытающихся использовать STL-подобный подход к управлению данными CUDA).

В частности, есть проект исследования NVIDIA: толкать

22.07.2010 10:51

Does anybody have information about future CUDA developments that go in this general direction (let's face it: C interfaces in C++ s*ck)?

Да, я сделал что-то подобное:

https://github.com/eyalroz/cuda-api-wrappers/

nVIDIA's Runtime API for CUDA is intended for use both in C and C++ code. As such, it uses a C-style API, the lower common denominator (with a few notable exceptions of templated function overloads).
This library of wrappers around the Runtime API is intended to allow us to embrace many of the features of C++ (including some C++11) for using the runtime API - but without reducing expressivity or increasing the level of abstraction (as in, e.g., the Thrust library). Using cuda-api-wrappers, you still have your devices, streams, events and so on - but they will be more convenient to work with in more C++-idiomatic ways.

22.02.2018 12:33

Другие вопросы по теме

Проблемы с памятью CUDA

Динамическое выделение постоянной памяти в CUDA

Эффективное получение подмножеств массивов

Как заблокировать до завершения асинхронного задания

API драйвера CUDA против среды выполнения CUDA

CUDA для .net?

Должен ли я создавать приложения CUDA сейчас или подождать DirectX 11?

Операции с произвольными типами значений

Как мне запустить уже написанную параллельную программу на массиве графического процессора?

Превращение методов C# в методы C++

CUDA: упаковка выделения памяти устройства в C++

Ответы 4

Другие вопросы по теме

Похожие вопросы