Вычисление tf_idf для таблицы fvt

У меня есть таблица значений частоты, например:

и я хочу вычислить tf_idf.

Мой код-

l=len(data)
for doc in data:

m=data.groupby(doc).apply(lambda column: column.sum()/(column != 0).sum())
for i in range(l):
    tf=print(data.loc[i,doc])
    idf=log(l/m)                  
    weight=tf*idf
    data.loc[i,doc]=weight

Объяснение- Сначала я просматриваю каждый столбец, где нахожу ненулевые строки в этом столбце в var m и сохраняю конкретное значение этой строки в столбце как tf, а затем вычисляю tf_idf и заменяю значения в таблице на веса tf_idf.

ожидаемый результат-

для первой строки столбца g мы имеем tf = 3 idf = log (5/4), поэтому tf_idf = idf * tf

    a   b           
1   0.4 0                   
2   0   0.4                 
3   0.17 .22

Пожалуйста, поясните, что такое data, и укажите ожидаемый результат.

— 03.01.2019 20:23

Все еще не понимаете, что такое doc и data? Пожалуйста, поясните. Было бы хорошо, если бы вы упомянули полный ожидаемый результат для ваших данных.

— 05.01.2019 17:26

@AbdurRehman doc - это итератор в цикле for, и я предоставил образец для фрейма данных в вопросе

— 05.01.2019 17:42

В вашем примере, насколько я понимаю, у вас есть 3 документа. Слово a отображается как 3-times в первом doc, а в первом документе всего 3 слова (a = 3 + b = 0), поэтому tf будет 3/3 = 1. Так как всего 3 документа и слово a встречается в двух из них, то idf будет log(3/2) = 0.176, а теперь tf-idf = 1 * 0.176 = 0.176. Как вы получили 1.2 в первом документе.

— 05.01.2019 18:12

Я просмотрел пример tf-idf от quora. Посмотрите здесь: quora.com/How-does-TF-IDF-work

— 05.01.2019 18:13

@AbdurRehman Я ссылаюсь на этот tfidf.com, здесь его упомянутое tf - это частота слова в документе / количество слов в документе ... поскольку данные являются fvt, значения - это частота слова в документе .. поэтому в первом случае freq - 3, количество слов в первом документе - 1 tf = 3/1 idf - ln (3/2)

— 05.01.2019 18:23

Позвольте нам продолжить обсуждение в чате.

— 05.01.2019 18:34

python pandas numpy nlp tf-idf

03.01.2019 20:16

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Входной DataFrame:

Сначала найдите idf из всех слов,

idf_list = []
for col in list(df.columns):
    total_count = df[col].nonzero()[0][1]
    idf = np.log(len(df) / total_count)
    idf_list.append(round(idf, 3))

Теперь найдите tf-idf и обновите фрейм данных,

for row in range(len(df)):
    total_doc_words = sum(df.iloc[row].values)
    for col in range(len(df.columns)):
        tf = df.iloc[row, col] / total_doc_words
        df.iloc[row, col] = tf * idf_list[col]

Вывод:

df
       a    b
0   0.405   0.000
1   0.000   0.405
2   0.180   0.225

05.01.2019 19:22

Другие вопросы по теме

Pandas Interpolate не дает того, что я ожидал

Как вытащить числовое значение (различной длины) из одного и того же места в строке?

Что это значит? Ошибка xarray: не удается обработать неуникальный мультииндекс

Циклы for в пандах действительно плохи? Когда мне нужно заботиться?

Необходимо изменить время с 24:00 на 23:00 для части данных в Python

Управление CSV Python Panda

Назначение даты серии поплавков Pandas

Как сгруппировать по процентному диапазону каждого значения в pandas python

Как создать новый фрейм данных после validation_split?

Объединить без потери строк и без дублирования, если более одного совпадения `on` и продолжать совпадение до определенного момента?

Вычисление tf_idf для таблицы fvt

Ответы 1

Другие вопросы по теме

Похожие вопросы