본 발명은 로컬 조건 GAN (generative adversarial networks) 기반의 학습 장치 및 방법에 관한 것으로, 상기 학습 장치는 입력 이미지 상에 지역 영역을 각각 배치한 복수의 지역 영역 이미지들을 입력받아 잠재 코드(latent code)를 생성하고, 상기 복수의 지역 영역 이미지들의 조합은 상기 입력 이미지를 생성하며, 특정 기준의 등가 손실(equivalence loss)을 가지도록 상기 지역 영역을 제어하는 분할 인코더부; 상기 잠재 코드를 기초로 특정 기준의 조합 손실(composition loss) 및 대립 손실(adversarial loss)을 가지도록 상기 복수의 지역 영역 이미지들을 조합하여 조합 이미지를 생성하는 생성부; 및 상기 조합 이미지의 진위 여부를 구별하는 구별부를 포함한다.