본 발명은 동영상 데이터를 이용한 의료 인공지능 모델 학습 방법에 관한 것이다. 본 발명에 따른 동영상 데이터를 이용한 의료 인공지능 모델 학습 방법은, 의료 인공지능 모델이 동영상 데이터로서 인체 내부의 임의의 장기에 대한 연속된 비디오 프레임과, 키 프레임의 대상 영역 마스크를 입력받는 단계; 입력받은 연속된 비디오 프레임을 컨볼루션 레이어들로 정렬하고, 정렬된 컨볼루션 레이어들에서 각 프레임별 컨볼루션 레이어의 결과물을 출력하는 단계; 출력된 각 프레임별 컨볼루션 레이어의 결과물들을 입력된 시간 순서에 따라 3차원 방향으로 적층하여 3차원 동영상의 특징 지도 데이터를 생성하는 단계; 생성된 3차원 동영상의 특징 지도 데이터를 시퀀스 네트워크에 적용하여 시계열 정보로 처리하는 단계; 처리된 시계열 정보를 바탕으로 클래스별 최종 유사 확률을 구하고, 구해진 최종 확률과 비디오의 정답 클래스를 토대로 분류 손실(LC)을 측정하는 단계; 상기 출력된 각 프레임별 컨볼루션 레이어의 결과물들로부터 프레임별 활성화 지도를 추출하고, 추출된 활성화 지도의 활성화 영역과 키 프레임의 대상 영역 마스크의 정답 영역 간의 위치 유사도(LMF)를 측정하는 단계; 및 g) 상기 측정된 분류 손실(LC)과 측정된 위치 유사도(LMF)를 합산하여 학습 손실을 측정하는 단계를 포함한다.