Набор данных содержит разные элементы по строкам, а столбцы содержат записанные образцы, половина из которых относится к положительному классу, а другая половина — к отрицательному классу. Теперь я хочу создать и обучить модель, чтобы классифицировать образец невидимого элемента как положительный или отрицательный.
Вопрос: Как мне обрабатывать (использовать) такой набор данных?
И любая рекомендация для модели, так как количество строк превышает 50 тыс., а количество столбцов - 12 положительных и 12 отрицательных.
Теперь из этих данных должна быть создана модель, которая может классифицировать x (или y или z) как положительные или отрицательные в зависимости от предоставленного значения. Например, если значение, предоставленное для x, равно 12, то модель оценивает x как положительное.






Насколько я понимаю ваш вопрос, у вас есть переменная в качестве входных данных, скажем, x. Эта переменная может содержать одни значения (положительные примеры), но не другие (отрицательные примеры). Теперь, получив новое значение x, вы хотите знать, правдоподобно ли такое значение для x.
Вы говорили о тренировках. Я думаю, вы думаете о нейронных сетях. В этом случае просто создайте набор данных из первой строки вашей таблицы (x-строка) следующим образом:
D = [
[10, 1],
[11, 1],
[13, 1],
[14, 1],
[16, 0],
[15, 0],
[14, 0],
[16, 0],
]
Первый элемент — это ваша ценность. Второй элемент сообщает вашей сети, является ли это правдоподобным значением (1) или нет (0). Не забудьте перетасовать свой набор данных, чтобы образцы, которыми вы кормите свою сеть, не были сильно коррелированы (теоретически они должны быть iid).
Ваша сеть будет иметь на входе только 1 нейрон и на выходе 1 нейрон. Последний слой будет сигмовидной функцией активации (поскольку она находится между 0 и 1). Используйте бинарную перекрестную потерю энтропии.
Учитывая комментарий, вот обновленный ответ.
Набор данных должен быть следующим:
D = [
[10, 0.67, 25, ..., 1],
[16, 0.15, 20.5, ..., 0],
[...]
]
Сеть идентична описанной выше, но теперь вход имеет размерность, равную количеству строк.
У меня была такая мысль, но это означало бы, что мне придется создавать набор данных для каждой строки, а мой набор данных содержит более 50 тысяч строк. И рассматривайте образцы как предметы, обладающие свойствами x, y, z и т. д. Кроме того, моей целью здесь является выбор признаков, чтобы узнать влияние каждой строки (свойства) на положительность или отрицательность образца.