Должен ли кодировщик иметь такое же количество слоев, что и декодер в вариационном автоэнкодере? Я получил немного лучший результат с энкодером (Dense): 54-10-5-3 и Decoder (Dense): 3-5-10-25-35-45-54
Нет, асимметричные архитектуры не редкость, например [1, 2, 3 и т. д.].
Тан, Шуай и др. «Изучение структуры асимметричного кодировщика-декодера для обучения представлению предложений на основе контекста». Препринт arXiv arXiv: 1710.10380 (2017). pdf
ЛиНалисник, Эрик и Падраик Смит. "Вариационные автоэнкодеры с нарушением правил". Международная конференция по обучающим представительствам (ICLR). 2017. pdf
Нэш, Чарли и Крис К.И. Уильямс. «Вариационный автоэнкодер формы: глубокая генеративная модель частично сегментированных 3D-объектов». Форум компьютерной графики. Vol. 36. № 5. 2017. pdf
Вы задали отличный вопрос, и ответ отрицательный.
Поскольку Aldream уже указал несколько работ, в которых используется асимметричная архитектура, я хотел бы указать на теоретические работы, связанные с вашим вопросом.
Я считаю, что лучшее объяснение содержится в документе конференции ICLR 2017: "Variational Lossy Autoencoder", Си Чен и др.
Раздел 2 является обязательным к прочтению. Автор связывает вариационный автокодер с побитовым кодированием и показывает, что средняя длина кода (которая эквивалентна вариационному нижнему пределу) всегда имеет дополнительную длину кода из-за использования приближенного апостериорного распределения. Когда декодер VAE (который имеет логарифмическую вероятность p (x | z)) может моделировать данные без необходимости q (z | x), VAE игнорирует скрытую переменную!
Это означает, что если у нас очень сильный декодер (например, такое же количество слоев, что и у кодировщика), то существует риск того, что VAE может полностью игнорировать обучение q (z | x), просто установив q (z | x) на априор p (z), следовательно, сохраняет потерю KL равной 0.
Для получения более подробной информации, пожалуйста, прочтите статью выше. На мой взгляд, соединение VAE с побитовым кодированием изящно.