Анализ ассоциации рыночной корзины python или SQL

Я использую набор данных, как показано ниже. Строки показывают номера счетов, столбцы показывают продукты. Я хочу показать количество продуктов в одном и том же счете в виде матрицы (т.е. продукты будут как в строках, так и в столбцах, пересечение строки и столбца покажет, сколько раз эти 2 продукта находятся в одном и том же счете. Как может Я делаю это? Спасибо.

Примечание. «1» означает, что продукт включен в счет, а «0» — нет. наконец, я хочу получить матрицу, как на картинке. пересекающиеся ячейки показывают количество продаж соответствующей пары товаров.

import pandas as pd
ids = ['invoice_1','invoice_2','invoice_3','invoice_4','invoice_5','invoice_6']
A= [0,0,1,0,1,1]
B= [0,1,1,0,1,1]
C= [1,1,1,0,1,0]
D= [1,0,0,1,1,0]
df=pd.DataFrame.from_dict({'A':A, 'B':B, 'C':C, 'D':D})
df.index=ids

На самом деле я хочу получить таблицу 2 из таблицы 1. AA = 3, потому что продукт A полностью включен в 3 счета-фактуры (строки). AB=4, так как A и B включены в 4 счета-фактуры (строки) вместе. Примечание. Даже если ячейки AA, BB, CC, DD не заполнены, это не имеет значения. Бинарные продукты (например, AB, DC и т. д.) важны для меня.

Table 1
                A   B   C   D
    invoice_1   0   0   1   1
    invoice_2   0   1   1   0
    invoice_3   1   1   1   0
    invoice_4   0   0   0   1
    invoice_5   1   1   1   1
    invoice_6   1   1   0   0
    invoice_7   1   1   0   0
    
Table 2    
        A   B   C   D
    A   4   4   2   1
    B   4   4   3   1
    C   2   3   4   2
    D   1   1   2   3

Можете ли вы привести пример ожидаемого результата?

itprorh66 23.11.2022 21:12

конечно. Я добавил его в качестве примера на картинке выше. пересекающиеся ячейки показывают количество продаж соответствующей пары товаров.

Bugra Varol 23.11.2022 21:23

Пожалуйста, не публикуйте ссылки на код и оставляйте изображения для диаграмм или демонстрации ошибок рендеринга, вещей, которые невозможно точно описать с помощью текста.

itprorh66 24.11.2022 01:02

Какова логика этого примера вывода? Например, почему AA = 0 и BA = 1?

itprorh66 24.11.2022 01:12

привет, я обновил свой вопрос более четко. Спасибо.

Bugra Varol 24.11.2022 07:03
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
0
5
52
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

ОП сделал здесь две ошибки. Первый вход для создания предполагаемой таблицы 1 должен быть:

import pandas as pd

ids = ['invoice_1', 'invoice_2', 'invoice_3', 'invoice_4', 'invoice_5', 'invoice_6', 'invoice_7']
A = [0, 0, 1, 0, 1, 1, 1]
B = [0, 1, 1, 0, 1, 1, 1]
C = [1, 1, 1, 0, 1, 0, 0]
D = [1, 0, 0, 1, 1, 0, 0]
df = pd.DataFrame(data = {'A': A, 'B': B, 'C': C, 'D': D}, index=ids)

Table 1
                A   B   C   D
    invoice_1   0   0   1   1
    invoice_2   0   1   1   0
    invoice_3   1   1   1   0
    invoice_4   0   0   0   1
    invoice_5   1   1   1   1
    invoice_6   1   1   0   0
    invoice_7   1   1   0   0

Таблица 2 на самом деле является скалярным произведением двух матриц, то есть матрицы df и ее транспонирования. Для его создания можно использовать numpy.dot.

import numpy as np

pd.DataFrame(data=np.dot(df.T, df), index=df.columns, columns=df.columns)

Table 2    
        A   B   C   D
    A   4   4   2   1
    B   4   5   3   1
    C   2   3   4   2
    D   1   1   2   3

Вторая ошибка, на которую я указал, это BB, где должно быть 5 вместо 4.

Я был неосторожен, потому что ввел значения вручную. Большое спасибо, это именно тот ответ, который я искал.

Bugra Varol 24.11.2022 08:05

Для второго DataFrame сохранение его в пандах сохранит индекс и столбцы без необходимости перестраивать и переопределять индекс и столбцы: df.T.dot(df)

Henry Ecker 02.12.2022 00:33

Другие вопросы по теме

Панды интерполируют внутри группы для одного столбца
Создайте новые столбцы, используя уникальные значения в других столбцах в Python
Pandas Отделите категориальные и числовые функции от нескольких фреймов данных и сохраните их в новом фрейме данных
Вычисление общего количества значений на основе одного и того же идентификатора в фрейме данных pandas
Загрузка большого файла (800 МБ) с URL-адреса в корзину GCS с использованием облачной функции
Как показать текст из третьего столбца фрейма данных при наведении курсора на линейную диаграмму, состоящую из двух других столбцов?
Как сводная/сводная таблица кадра данных pandas с несколькими значениями столбца
Панды создают категориальный столбец на основе ранга в группе
Как преобразовать столбец dataframe, который содержит список словаря, в отдельные столбцы?
Используйте pandas groupby для группировки нескольких столбцов