본 개시의 일 실시예에 따르면, 비디오-텍스트 질의 응답을 위한 학습 장치는 비디오 데이터의 제1 특징을 입력으로 하여 비디오 데이터의 통합 특징을 출력하도록 구성된 비디오 특징 추출 모듈 및 텍스트 데이터를 입력으로 하여 텍스트 데이터의 제2 특징을 출력하도록 구성된 텍스트 특칭 추출 모듈 및 비디오 데이터를 입력으로 하여 제1 특징을 출력하도록 사전 학습된 모델로부터 제1 특징을 획득하고, 제1 특징을 기초로 비디오 데이터 또는 텍스트 데이터의 슈도 정답(Pseudo GroundTruth)을 결정하고, 통합 특징, 제2 특징 및 슈도 정답을 기초로 하는 손실 함수를 이용하여 텍스트 데이터 및 비디오 데이터의 관계성을 학습하는 학습 모듈을 포함할 수 있다.