Я хочу классифицировать данные по двум классам на основе заданных параметров. Мои данные — это публикации из двух разных источников, и я хочу разделить их на «совпадающие» и «несовпадающие»; при сравнении набора данных1 с набором данных2. Наборы данных представляют собой немаркированные текстовые данные, которые содержат пять атрибутов (идентификатор, название, авторы, место проведения, год), поэтому, если я применю алгоритмы без присмотра, он не создаст мои целевые классы. С другой стороны, контролируемые алгоритмы должны маркировать данные, которые недоступны и требуют времени.
Лучший, самый простой и, насколько мне известно, оптимальный метод заключается в следующем:
clustering
, такие как K-Means
, чтобы сгруппировать точки данных в 2 кластера.manually examine a few samples
одного из кластеров и пометьте его соответствующим образом.Предположим, вы случайно выбрали 10 точек данных из первого кластера, и они попадают в класс соответствия. Теперь все, что вам нужно сделать, это пометить все точки данных в этом кластере как match
и пометить все точки данных в другом кластере как non-match
.
Это даст вам необходимую классификацию.
Если у вас есть достоверные данные, то я не понимаю, почему вы не можете запустить классификатор. Так что нет, вы не будете использовать этот метод. Вместо этого вы хотели бы использовать алгоритмы классификации.
спасибо за ваши ответы. Я новый пользователь в ML, поэтому есть ли какие-либо ресурсы или темы, из которых я могу узнать о применении данных ground truth
для запуска классификатора.
Подумайте о том, чтобы проголосовать и принять ответ... И это может дать вам обзор классификации - machinelearningmastery.com/…
буду ли я использовать этот метод, даже если у меня есть данные
ground truth
?