Я конвертирую XML в фрейм данных, который выглядит примерно так:
Я хочу, чтобы тег номера страницы, который находится в столбце pageflag, был скопирован для всех текстовых полей на этой странице, который в этом случае будет значением pageflag в строке 1, скопированным в строки 9,10 и 11
Для этой цели я использую Dataframe.shift, используя примерно такое условие:
df['pageflag'] = np.where(df['pageflag']==0,df['pageflag'].shift(1),df['pageflag'])
Он должен быть основан на этом условии, чтобы избежать сдвига для строк, которые уже имеют значение, например, в этом случае это строка 13, где присутствует новый атрибут страницы.
Проблема, с которой я столкнулся, заключается в том, что сдвиг происходит только для одной строки после тега номера страницы, который в моем случае является строкой 9. строки 10 и 11 по-прежнему будут иметь нулевое значение, чего я не ожидал.
Этого можно добиться с помощью цикла for, как показано ниже:
for i in range(1, len(df)):
if df['pageflag'][i] == 0:
df['pageflag'][i] = df['pageflag'][i - 1]
else:
df['pageflag'][i] = df['pageflag'][i]
но этого я хочу избежать из-за проблем с производительностью для больших фреймов данных.
Есть ли предложения о том, как этого можно достичь наиболее эффективным способом?






Вы можете использовать pd.Series.ffill после преобразования ваших значений 0 в NaN через pd.Series.mask:
df['pageflag'] = df['pageflag'].mask(df['pageflag'] == 0).ffill()
Потрясающе !!!. Понятия не имею, как это сработало, так как я никогда не использовал методы маски или заливки. Посмотрим, что они делают. Большое спасибо за вашу помощь.
Та же проблема, с которой я столкнулся раньше с numpy.where. Он делает это только для непосредственной строки, как я уже упоминал, а не для всех строк