Я пытаюсь понять реализацию алгоритма sklearn chi2 для выбора функции.
Я думаю, что понимаю формулу chi2.

После получения этого значения мы увидим таблицу для 1 степени свободы и в соответствии с вашими потребностями выберите значение p. Если значение chi2 больше, чем сохранить, в противном случае игнорируйте его.
Мой вопрос в том, как пакет sklearn самостоятельно выбирает это p-значение? Он просто требует массив X и y в качестве входных данных.
http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.chi2.html
и всегда ли показатели chi2 нормализуются? ссылка на статью-http://courses.ischool.berkeley.edu/i256/f06/papers/yang97comparative.pdf






Идея состоит в том, чтобы выполнить одномерный выбор признаков:
Итак, возвращаясь к вашему вопросу, я думаю, вы неправильно поняли следующий момент:
Я рекомендую вам увидеть реализацию здесь: github.com/scikit-learn/scikit-learn/blob/a24c8b46/sklearn/…
Я видел эту реализацию ... Я не думаю, что они должны быть нормализованы, но в документе так сказано ...
Всегда ли значения хи-квадрат нормализованы? Я ссылаюсь на статью, которая также часто цитируется, где это упоминается ... Я добавил ссылку в вопрос.