Текстовая классификация для неразмеченных данных

Я хочу классифицировать данные по двум классам на основе заданных параметров. Мои данные — это публикации из двух разных источников, и я хочу разделить их на «совпадающие» и «несовпадающие»; при сравнении набора данных1 с набором данных2. Наборы данных представляют собой немаркированные текстовые данные, которые содержат пять атрибутов (идентификатор, название, авторы, место проведения, год), поэтому, если я применю алгоритмы без присмотра, он не создаст мои целевые классы. С другой стороны, контролируемые алгоритмы должны маркировать данные, которые недоступны и требуют времени.

  • Каков наилучший и самый простой способ сделать это в python?
Оптимизация производительности модели: Руководство по настройке гиперпараметров в Python с Keras
Оптимизация производительности модели: Руководство по настройке гиперпараметров в Python с Keras
Настройка гиперпараметров - это процесс выбора наилучшего набора гиперпараметров для модели машинного обучения с целью оптимизации ее...
Развертывание модели машинного обучения с помощью Flask - Angular в Kubernetes
Развертывание модели машинного обучения с помощью Flask - Angular в Kubernetes
Kubernetes - это портативная, расширяемая платформа с открытым исходным кодом для управления контейнерными рабочими нагрузками и сервисами, которая...
Udacity Nanodegree Capstone Project: Классификатор пород собак
Udacity Nanodegree Capstone Project: Классификатор пород собак
Вы можете ознакомиться со скриптами проекта и данными на github .
Определение пород собак с помощью конволюционных нейронных сетей (CNN)
Определение пород собак с помощью конволюционных нейронных сетей (CNN)
В рамках финального проекта Udacity Data Scietist Nanodegree я разработал алгоритм с использованием конволюционных нейронных сетей (CNN) для...
Почему Python - идеальный выбор для проекта AI и ML
Почему Python - идеальный выбор для проекта AI и ML
Блог, которым поделился Harikrishna Kundariya в нашем сообществе Developer Nation Community.
0
0
632
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Лучший, самый простой и, насколько мне известно, оптимальный метод заключается в следующем:

  1. Используйте алгоритмы clustering, такие как K-Means, чтобы сгруппировать точки данных в 2 кластера.
  2. Теперь manually examine a few samples одного из кластеров и пометьте его соответствующим образом.

Предположим, вы случайно выбрали 10 точек данных из первого кластера, и они попадают в класс соответствия. Теперь все, что вам нужно сделать, это пометить все точки данных в этом кластере как match и пометить все точки данных в другом кластере как non-match.

Это даст вам необходимую классификацию.

буду ли я использовать этот метод, даже если у меня есть данные ground truth?

Ocean 10.12.2020 03:37

Если у вас есть достоверные данные, то я не понимаю, почему вы не можете запустить классификатор. Так что нет, вы не будете использовать этот метод. Вместо этого вы хотели бы использовать алгоритмы классификации.

paradocslover 10.12.2020 03:58

спасибо за ваши ответы. Я новый пользователь в ML, поэтому есть ли какие-либо ресурсы или темы, из которых я могу узнать о применении данных ground truth для запуска классификатора.

Ocean 10.12.2020 07:37

Подумайте о том, чтобы проголосовать и принять ответ... И это может дать вам обзор классификации - machinelearningmastery.com/…

paradocslover 11.12.2020 03:48

Другие вопросы по теме