Мне нужно удалить глобальную переменную и освободить память, которую она использовала, из функции с R, но ни один из вариантов, которые я пробовал, не работает.
Я попробовал функцию rm с параметром envir, а затем gc, но gc не освобождает память. Я также пробовал запускать gc в глобальной среде с помощью eval+envir.
library(data.table)
DT = data.table(col1 = 1:1e6)
cols = paste0('col', 2:100)
for (col in cols){ DT[, col := 1:1e6, with = F] }
rm_and_release <- function(dt){
dt <- dt[sample(1e6, 9e5, FALSE)]
print(gc())
rm(DT, envir = globalenv())
print(gc())
}
rm_and_release(DT)
Результат следующий
used (Mb) gc trigger (Mb) max used (Mb)
Ncells 661556 35.4 1168576 62.5 1143443 61.1
Vcells 96303112 734.8 146725516 1119.5 146722586 1119.5
used (Mb) gc trigger (Mb) max used (Mb)
Ncells 661569 35.4 1168576 62.5 1143443 61.1
Vcells 96303114 734.8 146725516 1119.5 146722586 1119.5
Я ожидал, что второй gc() освободит больше памяти, так как в этот момент есть только один набор данных, потому что глобальное DT было удалено.
Мне нужно освободить оперативную память внутри функции, потому что функция генерирует больше наборов данных, и ей не хватает памяти.
Используйте list=
аргумент rm
следующим образом:
library(data.table)
DT = data.table(col1 = 1:1e6)
cols = paste0('col', 2:100)
for (col in cols){ DT[, col := 1:1e6, with = F] }
rm_and_release <- function(dt){
dt <- dt[sample(1e6, 9e5, FALSE)]
print(gc())
rm(list = "DT", envir = globalenv())
print(gc())
}
rm_and_release(DT)
exists("DT")
## [1] FALSE
Вот журнал, когда я запускаю его (в Windows):
> library(data.table)
> gc()
used (Mb) gc trigger (Mb) max used (Mb)
Ncells 1075660 57.5 1899034 101.5 1899034 101.5
Vcells 2609137 20.0 91310117 696.7 99059673 755.8
> DT = data.table(col1 = 1:1e6)
> cols = paste0('col', 2:100)
> for (col in cols){ DT[, col := 1:1e6, with = F] }
There were 50 or more warnings (use warnings() to see the first 50)
>
> rm_and_release <- function(dt){
+ dt <- dt[sample(1e6, 9e5, FALSE)]
+ print(gc())
+ rm(list = "DT", envir = globalenv())
+
+ print(gc())
+ }
>
> gc()
used (Mb) gc trigger (Mb) max used (Mb)
Ncells 1076769 57.6 1899034 101.5 1899034 101.5
Vcells 53024698 404.6 91310117 696.7 99059673 755.8
> rm_and_release(DT)
used (Mb) gc trigger (Mb) max used (Mb)
Ncells 1075902 57.5 1899034 101.5 1899034 101.5
Vcells 97613454 744.8 134081733 1023.0 99059673 755.8
used (Mb) gc trigger (Mb) max used (Mb)
Ncells 1075901 57.5 1899034 101.5 1899034 101.5
Vcells 97613454 744.8 160978079 1228.2 99059673 755.8
> exists("DT")
[1] FALSE
> gc()
used (Mb) gc trigger (Mb) max used (Mb)
Ncells 1075669 57.5 1899034 101.5 1899034 101.5
Vcells 2613271 20.0 128782463 982.6 99059673 755.8
> ## [1] FALSE
Плакат не описал свое намерение, а только дал код, и этот код пытается удалить DT
независимо от dt
, поэтому я просто исправил его, чтобы фактически удалить его, сохранив то, что кажется первоначальным намерением. Если это не его намерение, то вопрос должен быть исправлен.
Я попробовал ваш код, но обнаружил, что объект удален, но память не освобождена, оба gc() показывают, что используемая память составляет около 730 МБ. Во втором gc() у нас на одну data.table меньше, поэтому должно быть меньше используемой памяти. Спасибо.
Журнал показан в примечании в конце. Ячейки Ncell и Vcell не изменились, показывая, что какое-либо промежуточное выделение памяти было освобождено.
Спасибо @ Г. Гротендик. Однако память не освобождается до тех пор, пока функция не завершится, мне нужно освободить ее раньше, потому что моя реальная функция использует больше памяти в конце и заканчивается. Я не уверен, что мои намерения ясны. Я опубликовал ответ (не слишком красивый), где память освобождается внутри функции.
Я нашел код, который работает
library(data.table)
DT = data.table(col1 = 1:1e6)
cols = paste0('col', 2:100)
for (col in cols){ DT[, col := 1:1e6, with = F] }
rm_and_release <- function(){
dt <- copy(DT)
dt <- dt[sample(1e6, 9e5, FALSE)]
print(gc())
rm(DT, envir = globalenv())
print(gc())
}
rm_and_release()
Это приводит к
used (Mb) gc trigger (Mb) max used (Mb)
Ncells 865272 46.3 1442291 77.1 1280599 68.4
Vcells 96733883 738.1 167167064 1275.4 147681076 1126.8
used (Mb) gc trigger (Mb) max used (Mb)
Ncells 865173 46.3 1442291 77.1 1280599 68.4
Vcells 46731629 356.6 133733651 1020.4 147681076 1126.8
Я думаю, что очень некрасиво не вставлять DT в качестве аргумента функции, но, по крайней мере, в этом сценарии память уменьшена с 738 МБ до 356 МБ, что имеет решающее значение для того, что я делаю.
Конечно, это тоже плохо — удалять объект с именем
DT
независимо от входных данных функции.