Кодировка onehot: сохранить структуру столбцов

Я пытаюсь решить проблему, которая возникла при производстве модели XGBoost. Моя текущая проблема заключается в том, что порядок столбцов в обучающих данных не реплицируется идентично в порядке столбцов в производственных данных, которые мне нужно оценить. Проблема возникла на этапе однократного кодирования. Если не все уровни каждой переменной присутствуют в данных производственной оценки, которые были в данных обучения. Это приводит к тому, что подсчет баллов дает непоследовательные и неверные результаты, или процесс подсчета баллов полностью не выполняется.

Пытаясь преодолеть эту проблему, я пытаюсь придумать процесс внутри шага кодирования onehot, который обеспечит согласованность структуры столбцов. Моя теория заключается в том, что если я сохраню вектор заголовка, созданный из набора обучающих данных, я мог бы затем вызвать функцию прогнозирования onehot в этом наборе заголовков для каждого производственного набора оценок.

Например. Если у меня есть 2 набора данных, тестируйте и тренируйтесь. Я могу onehot закодировать данные поезда через пакет onehot как:

header <- onehot(train, max_levels = 100)

trainmatrix <- predict(header, train)

Чтобы сохранить структуру столбцов этой матрицы, я хочу просто использовать объект заголовка, уже созданный выше, для быстрого кодирования тестовых данных, просто:

testmatrix <- predict(header, test)

Проблема в том, что результаты не совпадают, как я ожидал.

Если у меня есть данные поезда:

Кодировка onehot: сохранить структуру столбцов

Чтобы создать вектор заголовка:

Кодировка onehot: сохранить структуру столбцов

Затем используйте это для однократного кодирования тестовых данных:

Кодировка onehot: сохранить структуру столбцов

Получаю матрицу:

Кодировка onehot: сохранить структуру столбцов

Эти результаты явно не оправдывают моих ожиданий от эффективного решения. У кого-нибудь есть другое решение для этого?

Добро пожаловать в SO Стивен. Я рекомендую отредактировать ваш вопрос, чтобы включить в него данные, вектор и матрицу в виде текста. По крайней мере, вы должны вставлять изображения в свой вопрос, а не в качестве ссылок. Эти меры облегчают людям помощь вам.

James Jones 24.08.2018 06:50

Я пробовал встраивать изображения, но, поскольку я новый пользователь, я не могу встраивать изображения, пока я не наберу 10 очков честности или что-то в этом роде. Я приму ваше предложение, чтобы включить его как текст. Спасибо, Джеймс

Stephen Boorer 25.08.2018 07:08

Роджер, я забыл о правилах для пользователей с низкой репутацией. Они раздражают, но помогают предотвратить разрушение спамерами. Удачи с твоим вопросом.

James Jones 26.08.2018 16:04
Стоит ли изучать PHP в 2023-2024 годах?
Стоит ли изучать PHP в 2023-2024 годах?
Привет всем, сегодня я хочу высказать свои соображения по поводу вопроса, который я уже много раз получал в своем сообществе: "Стоит ли изучать PHP в...
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
Поведение ключевого слова "this" в стрелочной функции в сравнении с нормальной функцией
В JavaScript одним из самых запутанных понятий является поведение ключевого слова "this" в стрелочной и обычной функциях.
Приемы CSS-макетирования - floats и Flexbox
Приемы CSS-макетирования - floats и Flexbox
Здравствуйте, друзья-студенты! Готовы совершенствовать свои навыки веб-дизайна? Сегодня в нашем путешествии мы рассмотрим приемы CSS-верстки - в...
Тестирование функциональных ngrx-эффектов в Angular 16 с помощью Jest
В системе управления состояниями ngrx, совместимой с Angular 16, появились функциональные эффекты. Это здорово и делает код определенно легче для...
Концепция локализации и ее применение в приложениях React ⚡️
Концепция локализации и ее применение в приложениях React ⚡️
Локализация - это процесс адаптации приложения к различным языкам и культурным требованиям. Это позволяет пользователям получить опыт, соответствующий...
Пользовательский скаляр GraphQL
Пользовательский скаляр GraphQL
Листовые узлы системы типов GraphQL называются скалярами. Достигнув скалярного типа, невозможно спуститься дальше по иерархии типов. Скалярный тип...
0
3
101
0

Другие вопросы по теме