Получение предыдущей строки с использованием условного сдвига

Я конвертирую XML в фрейм данных, который выглядит примерно так:

Я хочу, чтобы тег номера страницы, который находится в столбце pageflag, был скопирован для всех текстовых полей на этой странице, который в этом случае будет значением pageflag в строке 1, скопированным в строки 9,10 и 11

Для этой цели я использую Dataframe.shift, используя примерно такое условие:

df['pageflag'] = np.where(df['pageflag']==0,df['pageflag'].shift(1),df['pageflag'])

Он должен быть основан на этом условии, чтобы избежать сдвига для строк, которые уже имеют значение, например, в этом случае это строка 13, где присутствует новый атрибут страницы.

Проблема, с которой я столкнулся, заключается в том, что сдвиг происходит только для одной строки после тега номера страницы, который в моем случае является строкой 9. строки 10 и 11 по-прежнему будут иметь нулевое значение, чего я не ожидал.

Этого можно добиться с помощью цикла for, как показано ниже:

for i in range(1, len(df)):
    if df['pageflag'][i] == 0:
        df['pageflag'][i] = df['pageflag'][i - 1]
    else:
        df['pageflag'][i] = df['pageflag'][i]

но этого я хочу избежать из-за проблем с производительностью для больших фреймов данных.

Есть ли предложения о том, как этого можно достичь наиболее эффективным способом?

python python-3.x pandas numpy dataframe

10.08.2018 11:26

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

Ответы 1

Вы можете использовать pd.Series.ffill после преобразования ваших значений 0 в NaN через pd.Series.mask:

df['pageflag'] = df['pageflag'].mask(df['pageflag'] == 0).ffill()

Та же проблема, с которой я столкнулся раньше с numpy.where. Он делает это только для непосредственной строки, как я уже упоминал, а не для всех строк

— 10.08.2018 11:37

Потрясающе !!!. Понятия не имею, как это сработало, так как я никогда не использовал методы маски или заливки. Посмотрим, что они делают. Большое спасибо за вашу помощь.

— 10.08.2018 11:46

10.08.2018 11:28