Я использую набор данных, как показано ниже. Строки показывают номера счетов, столбцы показывают продукты. Я хочу показать количество продуктов в одном и том же счете в виде матрицы (т.е. продукты будут как в строках, так и в столбцах, пересечение строки и столбца покажет, сколько раз эти 2 продукта находятся в одном и том же счете. Как может Я делаю это? Спасибо.
Примечание. «1» означает, что продукт включен в счет, а «0» — нет. наконец, я хочу получить матрицу, как на картинке. пересекающиеся ячейки показывают количество продаж соответствующей пары товаров.
import pandas as pd
ids = ['invoice_1','invoice_2','invoice_3','invoice_4','invoice_5','invoice_6']
A= [0,0,1,0,1,1]
B= [0,1,1,0,1,1]
C= [1,1,1,0,1,0]
D= [1,0,0,1,1,0]
df=pd.DataFrame.from_dict({'A':A, 'B':B, 'C':C, 'D':D})
df.index=ids
На самом деле я хочу получить таблицу 2 из таблицы 1. AA = 3, потому что продукт A полностью включен в 3 счета-фактуры (строки). AB=4, так как A и B включены в 4 счета-фактуры (строки) вместе. Примечание. Даже если ячейки AA, BB, CC, DD не заполнены, это не имеет значения. Бинарные продукты (например, AB, DC и т. д.) важны для меня.
Table 1
A B C D
invoice_1 0 0 1 1
invoice_2 0 1 1 0
invoice_3 1 1 1 0
invoice_4 0 0 0 1
invoice_5 1 1 1 1
invoice_6 1 1 0 0
invoice_7 1 1 0 0
Table 2
A B C D
A 4 4 2 1
B 4 4 3 1
C 2 3 4 2
D 1 1 2 3
конечно. Я добавил его в качестве примера на картинке выше. пересекающиеся ячейки показывают количество продаж соответствующей пары товаров.
Пожалуйста, не публикуйте ссылки на код и оставляйте изображения для диаграмм или демонстрации ошибок рендеринга, вещей, которые невозможно точно описать с помощью текста.
Какова логика этого примера вывода? Например, почему AA = 0 и BA = 1?
привет, я обновил свой вопрос более четко. Спасибо.
ОП сделал здесь две ошибки. Первый вход для создания предполагаемой таблицы 1 должен быть:
import pandas as pd
ids = ['invoice_1', 'invoice_2', 'invoice_3', 'invoice_4', 'invoice_5', 'invoice_6', 'invoice_7']
A = [0, 0, 1, 0, 1, 1, 1]
B = [0, 1, 1, 0, 1, 1, 1]
C = [1, 1, 1, 0, 1, 0, 0]
D = [1, 0, 0, 1, 1, 0, 0]
df = pd.DataFrame(data = {'A': A, 'B': B, 'C': C, 'D': D}, index=ids)
Table 1
A B C D
invoice_1 0 0 1 1
invoice_2 0 1 1 0
invoice_3 1 1 1 0
invoice_4 0 0 0 1
invoice_5 1 1 1 1
invoice_6 1 1 0 0
invoice_7 1 1 0 0
Таблица 2 на самом деле является скалярным произведением двух матриц, то есть матрицы df
и ее транспонирования. Для его создания можно использовать numpy.dot.
import numpy as np
pd.DataFrame(data=np.dot(df.T, df), index=df.columns, columns=df.columns)
Table 2
A B C D
A 4 4 2 1
B 4 5 3 1
C 2 3 4 2
D 1 1 2 3
Вторая ошибка, на которую я указал, это BB, где должно быть 5 вместо 4.
Я был неосторожен, потому что ввел значения вручную. Большое спасибо, это именно тот ответ, который я искал.
Для второго DataFrame сохранение его в пандах сохранит индекс и столбцы без необходимости перестраивать и переопределять индекс и столбцы: df.T.dot(df)
Можете ли вы привести пример ожидаемого результата?