Я пытаюсь реализовать сетевую настройку, аналогичную эта статья Google Deepmind. Их сеть устроена следующим образом:
Mθ - это сверточная сеть, поэтому мне было интересно, как они объединяют входные кадры с точками обзора? Насколько я знал, CNN учитывает пространственную информацию, верно? Так имеет ли смысл объединять кадры с точками обзора в качестве входных данных для CNN?
Заранее спасибо!
На вопрос ответили на Наука о данных по обмену стеком