Как мне структурировать (обработать) такую ​​таблицу для обучения модели?

Набор данных содержит разные элементы по строкам, а столбцы содержат записанные образцы, половина из которых относится к положительному классу, а другая половина — к отрицательному классу. Теперь я хочу создать и обучить модель, чтобы классифицировать образец невидимого элемента как положительный или отрицательный.

Вопрос: Как мне обрабатывать (использовать) такой набор данных?

И любая рекомендация для модели, так как количество строк превышает 50 тыс., а количество столбцов - 12 положительных и 12 отрицательных.

Как мне структурировать (обработать) такую ​​таблицу для обучения модели?

Теперь из этих данных должна быть создана модель, которая может классифицировать x (или y или z) как положительные или отрицательные в зависимости от предоставленного значения. Например, если значение, предоставленное для x, равно 12, то модель оценивает x как положительное.

Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
0
0
22
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Насколько я понимаю ваш вопрос, у вас есть переменная в качестве входных данных, скажем, x. Эта переменная может содержать одни значения (положительные примеры), но не другие (отрицательные примеры). Теперь, получив новое значение x, вы хотите знать, правдоподобно ли такое значение для x.

Вы говорили о тренировках. Я думаю, вы думаете о нейронных сетях. В этом случае просто создайте набор данных из первой строки вашей таблицы (x-строка) следующим образом:

D = [
 [10, 1],
 [11, 1],
 [13, 1],
 [14, 1],
 [16, 0],
 [15, 0],
 [14, 0],
 [16, 0],
]

Первый элемент — это ваша ценность. Второй элемент сообщает вашей сети, является ли это правдоподобным значением (1) или нет (0). Не забудьте перетасовать свой набор данных, чтобы образцы, которыми вы кормите свою сеть, не были сильно коррелированы (теоретически они должны быть iid).

Ваша сеть будет иметь на входе только 1 нейрон и на выходе 1 нейрон. Последний слой будет сигмовидной функцией активации (поскольку она находится между 0 и 1). Используйте бинарную перекрестную потерю энтропии.


Учитывая комментарий, вот обновленный ответ.

Набор данных должен быть следующим:

D = [
 [10, 0.67, 25, ..., 1],
 [16, 0.15, 20.5, ..., 0],
 [...]
]

Сеть идентична описанной выше, но теперь вход имеет размерность, равную количеству строк.

У меня была такая мысль, но это означало бы, что мне придется создавать набор данных для каждой строки, а мой набор данных содержит более 50 тысяч строк. И рассматривайте образцы как предметы, обладающие свойствами x, y, z и т. д. Кроме того, моей целью здесь является выбор признаков, чтобы узнать влияние каждой строки (свойства) на положительность или отрицательность образца.

Huzefa Jambughoda 25.05.2019 21:44

Другие вопросы по теме