Мой фрейм данных состоит из списков в каждой ячейке, и я хочу удалить определенное значение из всех этих списков, не используя цикл for для всего фрейма данных,
TIN PIN column ......
0 [1,2,val] [0,1] [val, t, z] ......
1 [2,val,4] [14,val] [b, a, val] ......
........
Эти значения имеют строковый формат, и я хочу удалить все из них, которые существуют в некоторых из этих списков и не существуют в других...
я пытался использовать
.apply(lambda x: x.remove('nan'|'NaT')
поскольку val представляет собой либо nan, либо NaT в строковом формате, то есть «nan» или «NaT», а не нулевые значения.....
Это дало мне сообщение об ошибке, кроме того, я думаю, что моя логика была неправильной, поскольку я думаю, что она пыталась удалить x вместо того, что было указано......
Вероятно, вы можете сделать это с помощью 2 встроенных циклов «для», один раз для итерации по ячейкам в df, а другой для итерации по элементам списка в ячейке.
for cell in df["col"]:
for listitem in cell:
if listitem < 10:
list.pop(n)
else:
continue
«cell» выполняет итерацию ячеек df, а listitems выполняет итерацию элементов списка внутри ячейки. Где n означает «n-й» элемент в списке. IOW, если n = 3, то он удалит 4-й элемент списка (помните, что 0 технически является первым элементом).
Вы не можете использовать remove так, как вы предполагали, так как он возвращает None
, если значение было найдено, и повышает ValueError
, если это не так. Один из способов сделать то, что вы хотите, - использовать вложенное приложение:
df = pd.DataFrame(
{'TIN': {0: [1,2,'val'], 1: [2,'val',4]},
'PIN': {0: [0,1], 1: [14,'val']},
'column': {0: ['val', 't', 'z'], 1: ['b', 'a', 'val']}}
)
df = df.apply(lambda x:x.apply(lambda y:[v for v in y if v != 'val']))
Выход:
TIN PIN column
0 [1, 2] [0, 1] [t, z]
1 [2, 4] [14] [b, a]
Обратите внимание, что с точки зрения производительности лучше использовать applymap (примерно на 35% быстрее), как описано в ответе @LuanNguyen:
df = df.applymap(lambda y:[v for v in y if v != 'val'])
Или используя набор значений для удаления:
remove = { 'val', 'xyz' }
df = df.applymap(lambda y:[v for v in y if v not in remove])
Может быть, это то, что вам нужно, я использую метод фрейма данных applymap
, чтобы применить лямбда-функцию для всех ячеек в фрейме данных и функцию Python filter
, чтобы удалить ненужные элементы в переменной nan_set
.
nan_set = {'val'}
print(
df.applymap(lambda arr: list(
filter(lambda element: element not in nan_set, arr)))
)
Вход:
TIN PIN COL
0 [1, 2, val] [0, 1] [val, t, z]
1 [2, val, 4] [14, val] [b, a, val]
Выход:
TIN PIN COL
0 [1, 2] [0, 1] [t, z]
1 [2, 4] [14] [b, a]
Это лучшее решение, чем мое
Спасибо. Имея более 50 репутаций, теперь я могу комментировать :)).
Вы можете использовать приложение с пользовательской функцией.
(большую часть кода можно сделать в одну строку, но это сложно понять):
Value2Remove='val'
def RemoveVal(Ls,Val):
if Val in Ls:
Ls.remove(Val)
return Ls
df['TIN'] = df['TIN'].apply(lambda x: RemoveVal(x,Value2Remove))
df['PIN'] = df['PIN'].apply(lambda x: RemoveVal(x,Value2Remove))
df['column'] = df['column'].apply(lambda x: RemoveVal(x,Value2Remove))
Вход:
TIN PIN column
0 [1, 2, val] [0, 1] [val, t, z]
1 [2, val, 4] [14, val] [b, a, val]
Выход:
TIN PIN column
0 [1, 2] [0, 1] [t, z]
1 [2, 4] [14] [b, a]
Вы можете использовать apply
, рассматривая каждую строку как серию
def remove_nan(s):
cols = ['TIN', 'PIN', 'column']
for col in cols:
try:
s[col].remove('nan')
except ValueError:
pass
return s
Примените это к df
, установите ось на 1
, чтобы операция выполнялась над столбцами.
df_text = df.apply(remove_nan, axis=1)
print(df_text)
TIN PIN column
0 [1, 2] [0, 1] [t, z]
1 [2, 4] [14] [b, a]
Вы не можете (эффективно) выполнить эту задачу без цикла for