Как эффективно сопоставить значения (из файла CSV) с Pandas DataFrame?

У меня есть такой CSV:

Где первый столбец может иметь пробелы, но второй и третий не имеют пробелов в середине значений.

Значения столбца TO_REPLACE следует заменить значениями в столбце VALUE_TO_COPY при условии, что содержимое их ячеек совпадает со значением ячейки столбца TO_SEARCH. Итак, результат должен быть таким:

Как эффективно сопоставить значения (из файла CSV) с Pandas DataFrame?

Я написал сценарий:

import pandas as pd
import numpy as np

df = pd.read_csv(
    filepath_or_buffer='mapping_test.csv',
    delimiter=',',
    dtype=str
)

to_replace = df['TO_REPLACE'].copy()
result = df['TO_REPLACE'].copy()

df = df.set_index('TO_SEARCH')
df.dropna(
    how='all',
    inplace=True
)

del df['TO_REPLACE']

for key, value in to_replace.iteritems():
    try:
        result[key] = df.loc[value, 'VALUE_TO_COPY']
    except:
        print('ERROR, not found KEY: {}'.format(key))

result_df = pd.DataFrame(
    data = {
        'TO_REPLACE': result,
        'VALUE_TO_COPY': list(df['VALUE_TO_COPY']) + [np.nan] * (len(result) - df['VALUE_TO_COPY'].size),
        'TO_SEARCH': list(df.index) + [np.nan] * (len(result) - df['VALUE_TO_COPY'].size),
    }, 
    columns=['TO_REPLACE','VALUE_TO_COPY','TO_SEARCH']  # to preserve the column order
)

result_df.to_csv(
    path_or_buf='mapping_result.csv',
    index=False
)

Что я делаю в своем коде:

Я прочитал данные из CSV в DataFrame
Я разделил DataFrame на две части. С одной стороны, я храню TO_REPLACE как серию, а с другой стороны, DataFrame со столбцами VALUE_TO_COPY и TO_SEARCH. Я использую TO_SEARCH в качестве индекса этого DataFrame.
Я перебираю столбец TO_REPLACE, чтобы найти значения в столбце TO_SEARCH. Если значения не совпадают, я сохраняю старое значение.
Я снова создаю DataFrame с замененными значениями и сохраняю его в файл CSV.

Но это не очень эффективно. Мне очень часто нужно отображать тысячи значений, поэтому мне нужен более эффективный код. Есть идеи улучшить мой код?

Возможно, я мог бы использовать методы map (для Series), apply или applymap (для DF). По крайней мере, я отказался от apply, потому что он работает со всей строкой за раз, а applymap работает со всем DataFrame. Возможно, наиболее полезным является map, но я думаю, что он выполняет итерацию по всем значениям, как я это делал вручную. Другой возможный вариант, который я рассмотрел, - это метод replace, но я читал, что map быстрее.

В Real Python есть отличный учебник по ускорению функций pandas: realpython.com/fast-f flexible-pandas

— 03.09.2018 03:39

Вам следует использовать .map.

— 03.09.2018 04:10

python python-3.x pandas dataframe mapping

03.09.2018 03:26

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

2 209

Ответы 2

Я бы не стал использовать панд.

Я бы прочитал их в словарь с генератора.

Используйте это для доступа к данным:

def read_file(fullname):
    with open(fullname) as f:
        for index, line in enumerate(f):
            if index == 0:
                header_line = line
            else:
                yield header_line, line

myFile = read_file(r"Path/To/Your/File")

for header, line in myFile:
    data = dict(zip(header.split(" "), line.split(" ")))
    .....

и создайте список crosswalk_dict / несколько переходов, который вы заполняете при прохождении через генератор.

03.09.2018 04:59

2018-09-03_map_with_pandas.ipynb

import pandas as pd
df = pd.read_csv('data/RBefh.csv', dtype=str)
keys = list(df['to_search'].dropna())
values = list(df['value_to_copy'].dropna())
map_values = dict(zip(keys, values))
mapper = df.to_replace.isin(map_values)
df.loc[mapper, 'to_replace'] = df.loc[mapper, 'to_replace'].apply(lambda row: map_values[row])
df.fillna('', inplace=True)

Выход:

            to_replace       value_to_copy   to_search
0   __import__.value_1  __import__.value_1  2012000401
1   __import__.value_1  __import__.value_2  2012000501
2   __import__.value_1  __import__.value_3  2012000601
3   __import__.value_2  __import__.value_4  2012000603
4   __import__.value_2  __import__.value_5  2012000604
5   __import__.value_2  __import__.value_6  2012000605
6                       __import__.value_7  2012000606
7   __import__.value_2  __import__.value_8  2012000607
8   __import__.value_2  __import__.value_9  2012000608
9   __import__.value_2  __import__.value_10 2012000609
10                      __import__.value_11 2012000610
11  __import__.value_2  __import__.value_12 2012000701
12  __import__.value_2  __import__.value_13 2012000702
13  __import__.value_3      
14  __import__.value_4      
15  __import__.value_5      
16  __import__.value_6      
17  __import__.value_7      
18  __import__.value_8      
19  __import__.value_9      
20  __import__.value_10     
21  __import__.value_11     
22  __import__.value_12     
23  __import__.value_12     
24  __import__.value_12     
25  __import__.value_12     
26  __import__.value_12     
27  __import__.value_12     
28  __import__.value_12     
29  2012999999

03.09.2018 05:02

Другие вопросы по теме

Перенести логическое значение var в другой файл

Я не могу понять, как работает функция карты Python3 для списка?

Режим наложения наложения в Python максимально эффективно (Numpy, OpenCV)

Я получаю пустой набор при использовании цикла for

Передача данных из txt файла в массив (индекс списка вне допустимого диапазона)

Почему я получаю сообщение об ошибке «Нет модуля с именем lal», если явно существует каталог с именем «lal»?

Сортировка словаря по значениям в Python 3.6+

Генератор случайного порядка с использованием фильтрации и рекурсии

Как рассчитать средние значения после сохранения переменной?

Как использовать модальный диалог начальной загрузки в django?

Как эффективно сопоставить значения (из файла CSV) с Pandas DataFrame?

Ответы 2

Другие вопросы по теме

Похожие вопросы