Я пытаюсь установить ветку pl_upgrade
из Openfold для установки на виртуальную машину GCP с установленным NVIDIA L4.
Следуя инструкциям, я установил мамбафоргу и создал среду, используя их файл environment.yml
. Однако, похоже, существует несоответствие между версией cuda torch, всеми библиотеками и установленной версией cudatoolkit.
cuda-cudart 12.1.105 0 nvidia
cuda-cupti 12.1.105 0 nvidia
cuda-libraries 12.1.0 0 nvidia
cuda-nvrtc 12.1.105 0 nvidia
cuda-nvtx 12.1.105 0 nvidia
cuda-opencl 12.4.127 0 nvidia
cuda-runtime 12.1.0 0 nvidia
cudatoolkit 11.8.0 h4ba93d1_13 conda-forge
torchtriton 2.1.0 py310 pytorch
pytorch 2.1.2 py3.10_cuda12.1_cudnn8.9.2_0 pytorch
pytorch-cuda 12.1 ha16c6d3_5 pytorch
pytorch-lightning 2.2.2 pyhd8ed1ab_0 conda-forge
[not full `conda list` output]
У меня также уже был установлен CUDA 12 в системе с установленным драйвером NVIDIA версии 535.86.10.
$ nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2023 NVIDIA Corporation
Built on Mon_Apr__3_17:16:06_PDT_2023
Cuda compilation tools, release 12.1, V12.1.105
Build cuda_12.1.r12.1/compiler.32688072_0
Я заметил, что cudatoolkit
на conda-forge или через канал nvidia имеет только cudatoolkit
до версии 11.8, которая, похоже, заменяется cuda-x.y.0::cuda-toolkit
, включая v12 и выше. Я попробовал добавить nvidia/label/cuda-12.1.0::cuda-toolkit
в файл Environment.yml, и он начал устанавливать множество библиотек cuda 12.4, а также множество библиотек 12.1, включая nvcc 12.4.
Я не понимаю, как это решить. Я просто хочу установить только cuda 12.1.
Если у кого-то еще возникла эта проблема, особенно с RTX4090, ветка pl_upgrades (хеш 3bec3e9) работала достаточно хорошо. Возврат к версии flash-attn
v2.0 помог преодолеть одну из ошибок модульного тестирования.
Но установка cuda 12.1 из файла запуска, а не из conda, позволила мне получить стабильную среду.