Восприимчивое поле сети пирамиды признаков

В сети пирамид функций (бумага) последний уровень любой CNN (например, ResNet-101) берется и повышается дискретизация на 2,4 и 6 для P5, P4 и P3. Чтобы обеспечить детализированные карты функций, боковые соединения из предыдущих слоев в ResNet-101 объединяются.

В RetinaNet (бумага) есть еще 2 слоя пирамиды, P6, который построен путем применения фильтра 3x3 к последней свертке. Layer в ResNet-101 и P7, применив фильтр 3x3 на P6, оба с шагом 2.

Все слои пирамид пространственных объектов распространяются через 1 подсеть классификации и 1 подсеть ограничивающей рамки, которые имеют общие веса для всех пирамид объектов.

Поскольку P6 и P7 имеют большее воспринимающее поле, берет ли классификационная подсеть самое большое воспринимающее поле или принимающее поле для каждого слоя пирамиды в отдельности?

RetinaNet

Я голосую за то, чтобы закрыть этот вопрос как не по теме, потому что он не связан с программированием или реализацией.

desertnaut 10.08.2018 14:53
0
1
543
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Я бы сказал индивидуально. Весь смысл пирамиды характеристик заключается в использовании характеристик в каждом масштабе.

Я бы сказал то же самое, но из газет этого не совсем ясно. Я попытался глубже изучить API обнаружения объектов Tensorflow, а также несколько реализаций Keras RetinaNet, но ни одна из них не дает много информации.

Albert 10.08.2018 16:08

Другие вопросы по теме