PySpark ChiSqSelector p-значения и статистика теста

Я использую PySpark pyspark.ml.feature.ChiSqSelector для выбора функций. apps - это столбец, содержащий разреженные матрицы, которые соответствуют тому, установил ли конкретный name (машина) определенное приложение. Всего существует 21 615 возможных приложений, которые кто-то мог установить.

После подгонки и преобразования новых данных с помощью объекта ChiSqSelector я не понимаю, что теперь представляет собой selected_apps. Документация здесь менее чем полезна. У меня есть несколько вопросов:

1) Как я могу получить статистику теста хи-квадрат и p-значения, связанные с каждым из 21 615 приложений ввода? Это не кажется доступным сразу после просмотра dir(selector).

2) Почему в selected_apps показаны разные приложения? Я догадываюсь, что машина во втором ряду ниже не имеет приложений 0, 1, 2 и т.д., поэтому то, что показано в selected_apps для этой строки, - это 50 лучших приложений, которые делает основал на их p-значениях. Этот API сильно отличается от scikit-Learning SelectKBest(chi2), где возвращаются только самые важные функции k, независимо от того, имеет ли конкретная машина «1» для этой функции.

3) Как я могу изменить настройку numTopFeatures=50 по умолчанию? Это в первую очередь связано с вопросом 1) и использованием только p-значений для выбора функции. Похоже, что нет варианта типа numTopFeatures=-1, который бы в принципе "забыл" об этом параметре.

>>> selector = ChiSqSelector(
...     featuresCol='apps',
...     outputCol='selected_apps',
...     labelCol='multiple_event',
...     fpr=0.05
... )
>>> result = selector.fit(df).transform(df)                                                                
>>> print(result.show())
+---------------+-----------+--------------+--------------------+--------------------+
|           name|total_event|multiple_event|                apps|       selected_apps|
+---------------+-----------+--------------+--------------------+--------------------+
|000000000000021|          0|             0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000022|          0|             0|(21615,[3,6,7,8,9...|(50,[3,6,7,8,9,11...|
|000000000000023|          0|             0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000024|          0|             0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000025|          0|             0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000026|          0|             0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000027|          0|             0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000028|          0|             0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000029|          0|             0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000030|          0|             0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000031|          0|             0|(21615,[0,1,2,3,4...|(50,[0,1,2,3,4,6,...|
|000000000000032|          0|             0|(21615,[6,7,8,9,1...|(50,[6,7,8,9,13,1...|
|000000000000033|          0|             0|(21615,[0,1,2,3,4...|(50,[0,1,2,3,4,6,...|
|000000000000034|          0|             0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000035|          0|             0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000036|          0|             0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000037|          0|             0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000038|          0|             0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000039|          0|             0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000040|          0|             0|(21615,[0,1,2,3,4...|(50,[0,1,2,3,4,6,...|
+---------------+-----------+--------------+--------------------+--------------------+

python pyspark chi-squared

21.06.2018 17:11

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

2 375

Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Я понял. Решение ниже:

from pyspark.mllib.linalg import Vectors
from pyspark.mllib.regression import LabeledPoint
from pyspark.mllib.stat import Statistics

# Convert everything to a LabeledPoint object, the main consumption
# data structure for most of mllib
to_labeled_point = lambda x: LabeledPoint(x[0], Vectors.dense(x[1].toArray()))

obs = (
    df
    .select('multiple_event', 'apps')
    .rdd
    .map(to_labeled_point)
)

# The contingency table is constructed from an RDD of LabeledPoint and used to conduct
# the independence test. Returns an array containing the ChiSquaredTestResult for every feature
# against the label.
feature_test_results = Statistics.chiSqTest(obs)

data = []

for idx, result in enumerate(feature_test_results):
    row = {
        'feature_index': idx,
        'p_value': result.pValue,
        'statistic': result.statistic,
        'degrees_of_freedom': result.degreesOfFreedom
    }
    data.append(row)

22.06.2018 03:04

Другие вопросы по теме

Удалить конечные пробелы из элементов в списке

Доступ к переменной из файла pyspark

Spark sql-запрос, вызывающий перетасовку огромных данных при чтении / записи

Несколько ошибок при попытке запустить Spark с python 3

Pyspark записывает фрейм данных в hbase, целочисленные значения загружаются как байты

Как сгладить RDD в Python?

Не удалось найти источник данных: com.mongodb.spark.sql.DefaultSource

Используется при работе со строками и подстроками в фреймах данных Pyspark

Pyspark: преобразовать дату из этого формата дд-МММ-гггг чч: мм: сс в гггг-мм-дд

PySpark: как ускорить sqlContext.read.json?

PySpark ChiSqSelector p-значения и статистика теста

Ответы 1

Другие вопросы по теме

Похожие вопросы