본 발명은 공중 이미지를 인가받아 미리 학습된 방식에 따른 신경망 연산으로 특징을 추출하여 공중 표현자를 획득하는 인코더, 지상에서 촬영한 이미지인 지상 이미지에 대응하도록 공중 표현자를 극좌표 변환하여 극좌표 표현자를 획득하고, 미리 학습된 방식에 따라 신경망 연산하여 극좌표 표현자에서 의미론적으로 인지 가능한 객체의 클래스에 따른 대표 특징이 가중된 다수의 의미론적 채널 표현자를 획득하며, 획득된 다수의 의미론적 채널 표현자 각각에서 대응하는 클래스에 따른 객체 영역의 위치를 신경망 연산으로 조절한 후, 결합하여 의미론적 변환 표현자를 생성하는 의미론적 표현자 변환부 및 의미론적 변환 표현자를 인가받아 미리 학습된 방식에 따른 신경망 연산으로 디코딩하여 합성 지상 이미지를 획득하는 디코더를 포함하여, , 의미론적으로 서로 다르게 인식된 객체에 구분하여 독립적으로 변환함으로써 사실적이고 의미론적으로 일관성 있는 지상 이미지를 생성할 수 있는 공중-지상 이미지 합성 장치 및 방법을 제공한다.