У меня есть такой дафараме:
df
Name1 Name2
0 John Jack
1 John Albert
2 Jack Eva
3 Albert Sara
4 Eva Sara
Я хочу присвоить каждому уникальное имя ID. Так:
df
Name1 Name2 ID1 ID2
0 John Jack 0 1
1 John Albert 0 2
2 Jack Eva 1 3
3 Albert Sara 2 5
4 Eva Sara 3 5
Нет, это не важно. Просто уникальные идентификаторы от 0 до 1






Сначала сгладьте значения с помощью numpy.ravel и измените форму с помощью исходного df, используйте конструктор DataFrame и создайте имена столбцов, последний join в исходный:
df1 = pd.DataFrame(pd.factorize(df.values.ravel())[0].reshape(df.shape))
df1.columns = ['ID{}'.format(x+1) for x in range(len(df1.columns))]
print (df1)
ID1 ID2
0 0 1
1 0 2
2 1 3
3 2 4
4 3 4
df = df.join(df1)
print (df)
Name1 Name2 ID1 ID2
0 John Jack 0 1
1 John Albert 0 2
2 Jack Eva 1 3
3 Albert Sara 2 4
4 Eva Sara 3 4
Создайте MultiIndex Series с помощью stack, создайте id с помощью factorize и для DataFrameunstack, затем столбцы rename и добавьте к оригиналу с помощью join:
s = df.stack()
df = df.join(pd.Series(pd.factorize(s)[0], index=s.index)
.unstack()
.rename(columns=lambda x: x.replace('Name','ID')))
print (df)
Name1 Name2 ID1 ID2
0 John Jack 0 1
1 John Albert 0 2
2 Jack Eva 1 3
3 Albert Sara 2 4
4 Eva Sara 3 4
Аналогичная альтернатива:
s = df.stack()
s[:] = pd.factorize(s)[0]
df = df.join(s.unstack().rename(columns=lambda x: x.replace('Name','ID')))
print (df)
Name1 Name2 ID1 ID2
0 John Jack 0 1
1 John Albert 0 2
2 Jack Eva 1 3
3 Albert Sara 2 4
4 Eva Sara 3 4
Альберт получает 2 в вашем решении в обоих столбцах. OP указывал 2 и 4.
@timgeb - да, заметил, надеюсь это опечатка. Похоже на то.
Если не важно, какое имя получит какое число, вы также можете рассмотреть
df.join(df.stack().astype('category').cat.codes.unstack()
.rename(columns=lambda c: c.replace('Name', 'ID')))
который производит
Name1 Name2 ID1 ID2
0 John Jack 3 2
1 John Albert 3 0
2 Jack Eva 2 1
3 Albert Sara 0 4
4 Eva Sara 1 4
Важно ли какое имя получит какой номер?