Я хочу рассчитать частоту появления в нескольких векторах и хочу, чтобы результирующее количество ячеек было согласовано по векторам, чтобы было легче вычислить расстояние Вассерштейна между ними.
Следующий код показывает, что гистограмма дает ячейки разного размера.
using StatsBase
for i in 1:10
h = fit(Histogram,randn(1000), nbins=10); println(size(h.weights))
end
Как сделать так, чтобы количество бинов было одинаковым?
Один из способов добиться полной согласованности между запусками — предоставить больше, чем просто количество бинов; для полной согласованности мы также указываем их точное положение. С Джулией StatsBase вы делаете это, предоставляя «ребра» (границы корзины). Вот демонстрация, где корзины идут от i
до i+1
:
julia> fit(Histogram, randn(1000), -5:5)
Histogram{Int64, 1, Tuple{UnitRange{Int64}}}
edges:
-5:5
weights: [0, 2, 23, 139, 319, 355, 143, 18, 1, 0]
closed: left
isdensity: false