Я попробовал наивный байес как в python, так и в R и получил разные значения AUROC. Почему это так?
Код R:
library(bnlearn)
library(pROC)
library(tm)
corpus <- VCorpus(VectorSource(paste(data$TEXT, sep = ' ')))
dtm <- DocumentTermMatrix(corpus, control = list(tolower = TRUE,
removeNumbers = FALSE,
stopwords = TRUE,
removePunctuation = TRUE,
stemming = TRUE))
convert_codes <- function(x) { x <- ifelse(x > 0, 1, 0) }
dtm <- apply(dtm, MARGIN = 2,convert_codes)
dtm <- as.data.frame(dtm)
model <- naive.bayes(dtm, approval, colnames(dtm)[-length(dtm)])
preds <- predict(model, dtm, prior = c(0.5, 0.5), prob = TRUE)
data$SCORE <- t(attr(preds, "prob"))[,2]
data$SCORE[is.nan(data$SCORE)] <- 0
print(auc(data$APPROVAL, data$SCORE))
Результат = 0,93
Код Python:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics import roc_auc_score
from sklearn.pipeline import Pipeline
from sklearn.naive_bayes import MultinomialNB
pipe = Pipeline([
('vectorizer', CountVectorizer()),
('model', MultinomialNB())
])
pipe.fit(data["TEXT"], data["APPROVAL"])
preds = pipe.predict_proba(data["TEXT"])
print(roc_auc_score(data["APPROVAL"], preds[:,1]))
Результат = 0,76
Почему такое большое расхождение?
Прости. Я постараюсь использовать более длинные и подробные заголовки.






Конвейеры, которые вы определили в R и Python, не совпадают:
weighting для DocumentTermMatrix по умолчанию равен weightTf и, таким образом, не учитывает компонент idf.TfidfVectorizer имеет параметр use_idf=True по умолчанию, поэтому он использует компонент idf.Я также использовал CountVectorizer с Python и получил аналогичные результаты.
Кстати, из оригинального названия никто не знал, о чем вы спрашивали - могло быть о различиях в скорости, могло быть о различиях в размере кода, могло быть спрашивать, как перенести что-то из одного в другое, и т. д. Пожалуйста, постарайтесь убедиться, что название вопроса не просто описывает общую тему, о которой вы спрашиваете, но на самом деле описывает сам вопрос с достаточной конкретностью, чтобы кто-то другой мог понять, есть ли у них та же проблема, без необходимости щелкать мышью. через.