Как сделать параллельную обработку в pytorch

Я работаю над проблемой глубокого обучения. Я решаю это с помощью pytorch. У меня есть два графических процессора, которые находятся на одной машине (16273 МБ, 12193 МБ). Я хочу использовать оба графических процессора для обучения (набор видеоданных).

Я получаю предупреждение:

Существует дисбаланс между вашими графическими процессорами. Вы можете исключить GPU 1, который имеет менее 75% памяти или ядер GPU 0. Вы можете сделать это, установив аргумент device_ids в DataParallel или установив CUDA_VISIBLE_DEVICES переменная окружения. warnings.warn (imbalance_warn.format (device_ids [min_pos], device_ids [max_pos]))

Я также получаю сообщение об ошибке:

поднять TypeError («Функция вещания не реализована для тензоров ЦП») TypeError: функция вещания не реализована для тензоров ЦП

if __name__ == '__main__':

    opt.scales = [opt.initial_scale]
    for i in range(1, opt.n_scales):
        opt.scales.append(opt.scales[-1] * opt.scale_step)
    opt.arch = '{}-{}'.format(opt.model, opt.model_depth)
    opt.mean = get_mean(opt.norm_value)
    opt.std = get_std(opt.norm_value)
    print("opt",opt)
    with open(os.path.join(opt.result_path, 'opts.json'), 'w') as opt_file:
        json.dump(vars(opt), opt_file)

    torch.manual_seed(opt.manual_seed)

    model, parameters = generate_model(opt)
    #print(model)

    pytorch_total_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
    print("Total number of trainable parameters: ", pytorch_total_params)

    # Define Class weights
    if opt.weighted:
        print("Weighted Loss is created")
        if opt.n_finetune_classes == 2:
            weight = torch.tensor([1.0, 3.0])
        else:
            weight = torch.ones(opt.n_finetune_classes)
    else:
        weight = None

    criterion = nn.CrossEntropyLoss()
    if not opt.no_cuda:



        criterion = nn.DataParallel(criterion.cuda())




    if opt.no_mean_norm and not opt.std_norm:
        norm_method = Normalize([0, 0, 0], [1, 1, 1])
    elif not opt.std_norm:
        norm_method = Normalize(opt.mean, [1, 1, 1])
    else:
        norm_method = Normalize(opt.mean, opt.std)

        train_loader = torch.utils.data.DataLoader(
            training_data,
            batch_size=opt.batch_size,
            shuffle=True,
            num_workers=opt.n_threads,
            pin_memory=True)
        train_logger = Logger(
            os.path.join(opt.result_path, 'train.log'),
            ['epoch', 'loss', 'acc', 'precision','recall','lr'])
        train_batch_logger = Logger(
            os.path.join(opt.result_path, 'train_batch.log'),
            ['epoch', 'batch', 'iter', 'loss', 'acc', 'precision', 'recall', 'lr'])

        if opt.nesterov:
            dampening = 0
        else:
            dampening = opt.dampening
        optimizer = optim.SGD(
            parameters,
            lr=opt.learning_rate,
            momentum=opt.momentum,
            dampening=dampening,
            weight_decay=opt.weight_decay,
            nesterov=opt.nesterov)
        # scheduler = lr_scheduler.ReduceLROnPlateau(
        #     optimizer, 'min', patience=opt.lr_patience)
    if not opt.no_val:
        spatial_transform = Compose([
            Scale(opt.sample_size),
            CenterCrop(opt.sample_size),
            ToTensor(opt.norm_value), norm_method
        ])




    print('run')
    for i in range(opt.begin_epoch, opt.n_epochs + 1):
        if not opt.no_train:
            adjust_learning_rate(optimizer, i, opt.lr_steps)
            train_epoch(i, train_loader, model, criterion, optimizer, opt,
                        train_logger, train_batch_logger)

Я также внес изменения в свой файл поезда:

      model = nn.DataParallel(model(),device_ids=[0,1]).cuda() 
        outputs = model(inputs)

Кажется, что он не работает должным образом и выдает ошибку. Пожалуйста, посоветуйте, я новичок в pytorch.

Спасибо

parallel-processing pytorch torch gpu torchvision

25.03.2019 18:58

Стоит ли изучать PHP в 2026-2027 годах?

Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...

Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией

В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.

Приемы CSS-макетирования - floats и Flexbox

Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...

Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest

В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...

Концепция локализации и ее применение в приложениях React ⚡️

Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...

Пользовательский скаляр GraphQL

Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...

3 361

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Как упоминалось в этой ссылке, вы должны выполнить model.cuda() перед передачей ее в nn.DataParallel.

net = nn.DataParallel(model.cuda(), device_ids=[0,1])

https://github.com/pytorch/pytorch/issues/17065

27.03.2019 10:57

Другие вопросы по теме

Ошибка при попытке отправить сгенерированное нейронной сетью изображение в колбе

TypeError: forward() отсутствует 1 обязательный позиционный аргумент: «скрытый»

Почему есть разные выходные данные между model.forward(вход) и моделью(ввод)

Визуализация вывода промежуточных слоев cnn в pytorch

PyTorch: ошибка нескольких графических процессоров: RuntimeError: binary_op (): ожидается, что оба входа будут на одном устройстве, но вход a находится на cuda: 0, а вход b — на cuda: 7

Проблемы с установкой пакета Python: несоответствие между проверкой установки на терминале (подсказка Anaconda) и Jupyter Notebook

Unity ML-Agent работает очень медленно

Как очистить память Cuda в PyTorch

BatchNorm1d нуждается в двумерном вводе?

PyTorch 1.0 загружает веса VGGFace2 в Python3.7

Как сделать параллельную обработку в pytorch

Ответы 1

Другие вопросы по теме

Похожие вопросы