본 발명은 비디오의 다수의 프레임과 연속하는 기지정된 개수의 프레임으로 구분된 다수의 클립 각각에서 특징을 추출하고 그래프로 변환하여, 형상 그래프와 모션 그래프를 획득하고, 질문 문장의 질문 벡터를 추출하고 그래프로 변환하여 질문 그래프를 획득하는 단계, 상기 질문 그래프를 브릿지로 이용하여 상기 형상 그래프와 상기 모션 그래프 사이의 상관 관계를 추정하고, 상호 가중함으로써 형상-모션 표현자 및 모션-형상 표현자를 획득하는 단계, 및 상기 형상-모션 표현자 및 상기 모션-형상 표현자 및 상기 질문 그래프의 노드들로 구성된 질문 표현자로부터 답변을 추론하는 단계를 포함하여, 문법적으로 복잡한 질문에도 매우 높은 수준의 정확도를 갖는 답변을 생성할 수 있는 비디오 질의 응답 장치 및 방법을 제공한다.