Ссылка здесь описывает метод классификации изображений с использованием распространения сходства. Я не понимаю, как они получили векторы признаков, то есть структуру данных изображений, например, массивы?
Кроме того, как мне это сделать, учитывая, что я не могу использовать Places365 в качестве пользовательских данных (аудиоспектрограммы)?
Наконец, как бы я построил изображения, как они сделали на диаграмме?
Изображения передаются через нейронную сеть. Активация слоя нейронной сети для изображения является вектором признаков. См. https://keras.io/applications/ для примеров.
Спектрограммы можно рассматривать как изображения.
Иногда, даже когда домен сильно отличается, функции нейронной сети могут извлекать полезную информацию, которая может помочь вам в задачах кластеризации/классификации.
Это диаграмма рассеяния с изображениями в качестве аннотаций. stackoverflow.com/questions/48180327/…
Вы можете использовать любую известную нейронную сеть. VGG16 или Inception, прошедшие обучение на Imagenet, могут подойти для вашего варианта использования.
есть ли причина, по которой они использовали 365-мерный вектор?
Потому что они используют последний слой сети, обученный набору данных Places 365. Последний слой имеет 365 выходных данных, ведущих к 365-мерному вектору.
Ах хорошо. Это действительно говорит само за себя. Итак, просто чтобы уточнить, вектор признаков создается с помощью нейронной сети для прогнозирования, то есть функции прогнозирования vgg16?
Есть ли способ получить соответствующее изображение в соответствующую точку или кластер для аннотаций изображения? До сих пор я только что обнаружил, что они просто использовали помеченное изображение в качестве представления точки, а не изображение, принадлежащее точке.
Как они рисовали изображения и какую нейросеть выбрать? Я действительно новичок в неконтролируемом обучении.