Я использую PySpark pyspark.ml.feature.ChiSqSelector для выбора функций. apps - это столбец, содержащий разреженные матрицы, которые соответствуют тому, установил ли конкретный name (машина) определенное приложение. Всего существует 21 615 возможных приложений, которые кто-то мог установить.
После подгонки и преобразования новых данных с помощью объекта ChiSqSelector я не понимаю, что теперь представляет собой selected_apps. Документация здесь менее чем полезна. У меня есть несколько вопросов:
1) Как я могу получить статистику теста хи-квадрат и p-значения, связанные с каждым из 21 615 приложений ввода? Это не кажется доступным сразу после просмотра dir(selector).
2) Почему в selected_apps показаны разные приложения? Я догадываюсь, что машина во втором ряду ниже не имеет приложений 0, 1, 2 и т.д., поэтому то, что показано в selected_apps для этой строки, - это 50 лучших приложений, которые делает основал на их p-значениях. Этот API сильно отличается от scikit-Learning SelectKBest(chi2), где возвращаются только самые важные функции k, независимо от того, имеет ли конкретная машина «1» для этой функции.
3) Как я могу изменить настройку numTopFeatures=50 по умолчанию? Это в первую очередь связано с вопросом 1) и использованием только p-значений для выбора функции. Похоже, что нет варианта типа numTopFeatures=-1, который бы в принципе "забыл" об этом параметре.
>>> selector = ChiSqSelector(
... featuresCol='apps',
... outputCol='selected_apps',
... labelCol='multiple_event',
... fpr=0.05
... )
>>> result = selector.fit(df).transform(df)
>>> print(result.show())
+---------------+-----------+--------------+--------------------+--------------------+
| name|total_event|multiple_event| apps| selected_apps|
+---------------+-----------+--------------+--------------------+--------------------+
|000000000000021| 0| 0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000022| 0| 0|(21615,[3,6,7,8,9...|(50,[3,6,7,8,9,11...|
|000000000000023| 0| 0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000024| 0| 0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000025| 0| 0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000026| 0| 0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000027| 0| 0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000028| 0| 0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000029| 0| 0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000030| 0| 0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000031| 0| 0|(21615,[0,1,2,3,4...|(50,[0,1,2,3,4,6,...|
|000000000000032| 0| 0|(21615,[6,7,8,9,1...|(50,[6,7,8,9,13,1...|
|000000000000033| 0| 0|(21615,[0,1,2,3,4...|(50,[0,1,2,3,4,6,...|
|000000000000034| 0| 0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000035| 0| 0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000036| 0| 0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000037| 0| 0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000038| 0| 0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000039| 0| 0|(21615,[0,1,2,3,6...|(50,[0,1,2,3,6,7,...|
|000000000000040| 0| 0|(21615,[0,1,2,3,4...|(50,[0,1,2,3,4,6,...|
+---------------+-----------+--------------+--------------------+--------------------+






Я понял. Решение ниже:
from pyspark.mllib.linalg import Vectors
from pyspark.mllib.regression import LabeledPoint
from pyspark.mllib.stat import Statistics
# Convert everything to a LabeledPoint object, the main consumption
# data structure for most of mllib
to_labeled_point = lambda x: LabeledPoint(x[0], Vectors.dense(x[1].toArray()))
obs = (
df
.select('multiple_event', 'apps')
.rdd
.map(to_labeled_point)
)
# The contingency table is constructed from an RDD of LabeledPoint and used to conduct
# the independence test. Returns an array containing the ChiSquaredTestResult for every feature
# against the label.
feature_test_results = Statistics.chiSqTest(obs)
data = []
for idx, result in enumerate(feature_test_results):
row = {
'feature_index': idx,
'p_value': result.pValue,
'statistic': result.statistic,
'degrees_of_freedom': result.degreesOfFreedom
}
data.append(row)