본 실시예들은 핵심 객체 검출(SOD) 모델과 동영상 객체 분할(VOS) 모델을 결합한 동영상 객체 추적 모델로, 핵심 객체 검출(SOD) 모델을 통해 후보 객체의 픽셀 영역을 설정하고 경계 박스를 이용하여 후보 객체의 픽셀 영역을 필터링하는 방식으로 픽셀 레벨 단위로 동영상의 객체를 추적하는 모델의 초기 정보를 설정하여, 경계 박스의 내부에 존재하는 객체 영역에 대한 픽셀 레벨 단위로 객체 영역을 정확하게 추적하는 동영상 객체 추적 장치를 제공한다.