Удаление определенного элемента из списка, когда список присутствует в ячейке фрейма данных

Мой фрейм данных состоит из списков в каждой ячейке, и я хочу удалить определенное значение из всех этих списков, не используя цикл for для всего фрейма данных,

    TIN        PIN       column       ......

0  [1,2,val]  [0,1]      [val, t, z]  ......
1  [2,val,4]  [14,val]   [b, a, val]  ......
........

Эти значения имеют строковый формат, и я хочу удалить все из них, которые существуют в некоторых из этих списков и не существуют в других...

я пытался использовать

.apply(lambda x: x.remove('nan'|'NaT') поскольку val представляет собой либо nan, либо NaT в строковом формате, то есть «nan» или «NaT», а не нулевые значения.....

Это дало мне сообщение об ошибке, кроме того, я думаю, что моя логика была неправильной, поскольку я думаю, что она пыталась удалить x вместо того, что было указано......

Вы не можете (эффективно) выполнить эту задачу без цикла for

mozway 19.04.2023 09:38
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
0
1
70
5
Перейти к ответу Данный вопрос помечен как решенный

Ответы 5

Вероятно, вы можете сделать это с помощью 2 встроенных циклов «для», один раз для итерации по ячейкам в df, а другой для итерации по элементам списка в ячейке.

for cell in df["col"]:
    for listitem in cell:
        if listitem < 10:
            list.pop(n)
        else:
            continue

«cell» выполняет итерацию ячеек df, а listitems выполняет итерацию элементов списка внутри ячейки. Где n означает «n-й» элемент в списке. IOW, если n = 3, то он удалит 4-й элемент списка (помните, что 0 технически является первым элементом).

Вы не можете использовать remove так, как вы предполагали, так как он возвращает None, если значение было найдено, и повышает ValueError, если это не так. Один из способов сделать то, что вы хотите, - использовать вложенное приложение:

df = pd.DataFrame(
    {'TIN': {0: [1,2,'val'], 1: [2,'val',4]},
     'PIN': {0: [0,1], 1: [14,'val']},
     'column': {0: ['val', 't', 'z'], 1: ['b', 'a', 'val']}}
)
df = df.apply(lambda x:x.apply(lambda y:[v for v in y if v != 'val']))

Выход:

      TIN     PIN  column
0  [1, 2]  [0, 1]  [t, z]
1  [2, 4]    [14]  [b, a]

Обратите внимание, что с точки зрения производительности лучше использовать applymap (примерно на 35% быстрее), как описано в ответе @LuanNguyen:

df = df.applymap(lambda y:[v for v in y if v != 'val'])

Или используя набор значений для удаления:

remove = { 'val', 'xyz' }
df = df.applymap(lambda y:[v for v in y if v not in remove])
Ответ принят как подходящий

Может быть, это то, что вам нужно, я использую метод фрейма данных applymap, чтобы применить лямбда-функцию для всех ячеек в фрейме данных и функцию Python filter, чтобы удалить ненужные элементы в переменной nan_set.

nan_set = {'val'}
print(
    df.applymap(lambda arr: list(
        filter(lambda element: element not in nan_set, arr)))
)

Вход:

    TIN        PIN          COL
0  [1, 2, val]     [0, 1]  [val, t, z]
1  [2, val, 4]  [14, val]  [b, a, val]

Выход:

    TIN     PIN     COL
0  [1, 2]  [0, 1]  [t, z]
1  [2, 4]    [14]  [b, a]

Это лучшее решение, чем мое

Nick 19.04.2023 10:07

Спасибо. Имея более 50 репутаций, теперь я могу комментировать :)).

Luan Nguyen 19.04.2023 10:10

Вы можете использовать приложение с пользовательской функцией.

(большую часть кода можно сделать в одну строку, но это сложно понять):

Value2Remove='val'

def RemoveVal(Ls,Val):
   if Val in Ls:
       Ls.remove(Val)
   return Ls


df['TIN'] = df['TIN'].apply(lambda x: RemoveVal(x,Value2Remove))
df['PIN'] = df['PIN'].apply(lambda x: RemoveVal(x,Value2Remove))
df['column'] = df['column'].apply(lambda x: RemoveVal(x,Value2Remove))

Вход:

    TIN PIN column
0   [1, 2, val] [0, 1]  [val, t, z]
1   [2, val, 4] [14, val]   [b, a, val]

Выход:

    TIN PIN column
0   [1, 2]  [0, 1]  [t, z]
1   [2, 4]  [14]    [b, a]

Вы можете использовать apply, рассматривая каждую строку как серию

def remove_nan(s):
    cols = ['TIN', 'PIN', 'column']
    for col in cols:
            try:
                    s[col].remove('nan')
            except ValueError:
                    pass
    return s

Примените это к df, установите ось на 1, чтобы операция выполнялась над столбцами.

df_text = df.apply(remove_nan, axis=1)

print(df_text)
      TIN     PIN  column
0  [1, 2]  [0, 1]  [t, z]
1  [2, 4]    [14]  [b, a]

Другие вопросы по теме