본 개시는 비디오 데이터에 포함된 다수의 프레임에 대해 신경망 연산하여, 다수의 프레임 표현자를 포함하는 비디오 표현자를 획득하고, 다수의 프레임 표현자 사이의 유사도를 기반으로, 시간적으로 연속되고 서로 유사한 프레임 표현자를 포함하는 표현자 클립을 추출하며, 표현자 클립에 포함된 프레임 표현자를 인코딩하여 텍스트 데이터를 신경망 연산하여 획득되는 언어 표현자를 모의한 유사 언어 표현자를 획득하여 학습을 수행함으로써, 비디오 데이터만을 포함하는 학습 데이터로도 학습 성능을 향상시킬 수 있는 비디오 순간 검색을 위한 학습 장치 및 방법을 제공한다.