У меня есть два Pandas DataFrames:
df_topics_temp contains матрица со столбцом iddf_mapping contains отображение id в parentIDЯ пытаюсь заполнить столбец parent.id в df_topics_tempparentID в df_mapping.
Я написал решение с использованием циклов, хотя оно очень громоздкое. Оно работает. Мое решение с использованием панд .apply для df_topics_temp не работает
Решение 1 (работает):
def isnan(value):
try:
import math
return math.isnan(float(value))
except:
return False
for x in range(0, df_topics_temp['id'].count()):
topic_id_loop = df_topics_temp['topic.id'].iloc[x]
mapping_row = df_mapping[df_mapping['id'] == topic_id_loop]
parent_id = mapping_row['parentId'].iloc[0]
if isnan(parent_id):
df_topics_temp['parent.id'].iloc[x] = mapping_row['id'].iloc[0]
else:
df_topics_temp['parent.id'].iloc[x] = topic_id_loop
Решение 2 (не работает):
def map_function(x):
df_topics_temp = df_mapping.loc[df_mapping['id'] == x]
temp = df_topics_temp['parentId'].iloc[0]
return temp
df_topics_temp['parent.id'] = df_topics_temp['topic.id'].apply(map_function)
df_topics_temp.head()
Второе решение (панды .apply) не заполняет столбец parent.id в df_topics_temp.
Спасибо вам за помощь
<ipython-input-68-a2e8d9a21c26> in map_function(row)
1 def map_function(row):
----> 2 row['parent.id'] = df_mapping.loc[df_mapping['id']==row['topic.id']]['parentId'].values[0]
3 return row
IndexError: ('index 0 is out of bounds for axis 0 with size 0', 'occurred at index 190999')






Если я правильно понимаю, «применить» принимает строку и возвращает строку. Итак, вы хотите, чтобы ваша функция возвращала строку. Ваш возвращает значение. Например:
#setting up the dataframes
import pandas as pd
import numpy as np
df1 = pd.DataFrame.from_dict({'name':['alice','bob'],'id':[1,2]})
mapping = pd.DataFrame.from_dict({'id':[1,2,3,4],'parent_id':[100,200,100,200]})
#mapping function
def f(row):
if any(mapping['id']==row['id']):
row['parent_id'] = mapping.loc[mapping['id']==row['id']]['parent_id'].values[0]
else: # missing value
row['parent_id'] = np.nan
return row
df1.apply(f,axis=1)
Большое спасибо, Итамар. В этом есть смысл. Я это попробую
См. Обновление 1 в моем исходном сообщении выше. Это ошибка, которую я получаю, когда применяю код, который вы предложили, к моему кадру данных. Пожалуйста помоги
Прежде всего, убедитесь, что строка-нарушитель (190999) имеет законного "родителя" по идентификатору, и это не проблема в данных.
Во всяком случае, я добавил условие для обработки пропущенных значений. Он должен обрабатывать ваши пропущенные значения и не приводить к исключению.
Пожалуйста. Если ответ помог и проблема решена, я думаю, вам следует «принять» ответ.
Я сделал это сейчас. Извините, я впервые использую stackoverflow. Я теперь знаю, что делать и не говорить "спасибо" в комментариях. Однако я ценю вашу помощь.
Я тоже новичок здесь. Удачного программирования!
Во-первых, я думаю, что вам не нужно переопределять isnan, версия numpy должна работать.