Изменить форму данных после фильтрации логических индексов

У меня есть набор данных с именем DATA, который перегруппировывает несколько 3D-таблиц из N=173 файлов индивидуальной формы (4, 4, 64), поэтому в конце пустой массив с именем DATA имеет форму (173, 4, 4, 64). В каждом отдельном файле у меня есть столбец, который является логическим столбцом, чтобы указать, являются ли данные хорошими или плохими. Чтобы отфильтровать мои данные, я использую логические условия:

cond = DATA[:,3,:,:]==False  
DATA_filtered = DATA[:,1,:,:][cond]

со следующими формами:

np.shape(DATA)
Out[854]: (173, 4, 4, 64)

np.shape(cond)
Out[855]: (173, 4, 64)

Но поскольку я использую эту технику в конце, у меня есть массив 1D, и вся структура исходного набора DATA теряется. Один из методов заключается в использовании функции reshape, используемой для numpy.array, но этот метод работает только в том случае, если в конце размерность остается неизменной. В случае, когда логические условия вызывают таблицы переменного размера, мы больше не можем предсказать и запросить изменение формы. Итак, есть ли способ фильтровать данные, но сохраняя глобальную форму данных с размером, который может варьироваться в зависимости от флага, используемого в данных?

Вот минимальный пример:

TEST = np.ones((173,4,4,64))
FLAG = np.random.choice(a=[False, True], size=(173,4,64))

cond = FLAG==False

data = TEST[:,0,:,:][cond]

Выход :

np.shape(data)
Out[868]: (22167,)

Ожидаемый результат:

np.shape(data)
Out[868]: (173,4,)

например, data[:,1,:], подмножество с размерами неравных массивов от 0 до 64 по таблице 174 в зависимости от фильтрации данных, которые были помечены или нет.

заранее спасибо

В тензоре nD вы можете удалить весь n-1 D-срез, но не случайные части здесь и там. Например, в 2D вы можете удалить целый столбец или строку, но не отдельный элемент. В 3D можно исключить всю плоскость (xy, yz или zx), но не изолированный одномерный столбец. Тот вид нарезки, который вы хотите сделать, создаст рваные массивы («делает дыры в вашем 4D-тензоре») и, следовательно, невозможен. Однако, согласно текущему ответу, numpy имеет «маскированные массивы» именно для таких случаев.

Pierre D 22.12.2020 02:21
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
1
1
154
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Masked Array — ваше решение

Во многих случаях наборы данных могут быть неполными или содержать неверные данные. Например, датчику может не удаться записать данные или записать недопустимое значение. Модуль numpy.ma предоставляет удобный способ решения этой проблемы, вводя маскированные массивы.

Маскированный массив представляет собой комбинацию стандартного numpy.ndarray и маски.

import numpy as np
import numpy.ma as ma

x = np.array([1, 2, 3, -1, 5])
mx = ma.masked_array(x, mask=[0, 0, 0, 1, 0])
mx.mean() # without taking the invalid data into account

Выход

2.75

Все вышеперечисленное взято из Маскированного массива Так что вы могли бы также прочитать его форму там

Другие вопросы по теме