Наивная байесовская точность увеличивается с увеличением альфа-значения

Я использую наивный байесовский метод для классификации текста, и у меня есть 100 тыс. Записей, из которых 88 тыс. - положительные записи класса, а 12 тыс. Записей - отрицательные записи. Я преобразовал предложения в униграммы и биграммы с помощью countvectorizer, взял альфа-диапазон из [0,10] с 50 значениями и нарисовал график. enter image description here

В аддитивном сглаживании Лапласа, если я продолжаю увеличивать значение альфа, то точность набора данных перекрестной проверки также увеличивается. У меня вопрос: ожидается ли эта тенденция или нет?

Используйте как RandomizedSearchCV, так и GridSearchCV. Сначала используйте RandomizedSearchCV, а затем GridSearchCV. Таким образом, alpha будет настроен более точно. Также попробуйте различные значения для альфы, например от 1e-4 до 1e3.

Kalsi 13.09.2018 20:35

да, я использовал GridSearchCV, но точность продолжает расти по мере увеличения альфа

Ravi 13.09.2018 20:42
1
2
1 725
2
Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

Если вы продолжите увеличивать альфа-значение, тогда наивная байесовская модель будет смещаться в сторону класса, который имеет больше записей, и модель станет тупой моделью (недостаточной подгонкой), поэтому выбор небольшого альфа-значения - хорошая идея.

Потому что у вас есть 88k положительной точки и 12k отрицательной точки, что означает, что у вас несбалансированный набор данных. Вы можете добавить больше отрицательной точки к сбалансированному набору данных, вы можете клонировать или воспроизвести свою отрицательную точку, которую мы назвали повышающей дискретизацией. После этого ваш набор данных сбалансирован, теперь вы можете применять наивный байес с альфой, он будет работать правильно, теперь ваша модель не является тупой моделью, раньше вы моделировали тупой, поэтому с увеличением альфа она увеличивает вашу точность.

Другие вопросы по теме

Каково правило строгой ассоциации, если после использования алгоритма apriori возможны только кандидаты из 1-пунктового набора?
На графике матрицы неточностей не отображаются данные
Работа с «недостающими» данными при добавлении новых функций позже
Пакет "fdapace" (r) - создать функциональный график первого главного компонента
Вероятностная перспектива - хороший метод коммерческого прогнозирования тенденций предпочтений клиентов?
Подмножество a-правил в r длиной lhs
Пакет "fdapace" (r) - как получить доступ к основным компонентам функционального анализа главных компонентов
Как сделать прогнозирование событий, например прогноз наводнения, с использованием алгоритма машинного обучения?
Как получить набор данных, содержащий как категориальные, так и непрерывные данные, в определяемую пользователем метрическую функцию в dbscan?
Как выполнить кластеризацию в word2vec