3D CNN에 기초한 영상 기반 건설 장비 인식 방법 및 장치이 개시된다. 영상 기반 건설 장비 인식 방법은 특징 추출 네트워크가 복수의 합성곱 레이어들을 이용하여 건설 현장의 영상 데이터로부터 시공간 특징을 추출하는 단계; 상기 특징 추출 네트워크가 풀링 및 합성곱 연산으로 상기 시공간 특징을 강화하여 시공간 특징맵을 출력하는 단계; 인식 네트워크가 상기 시공간 특징맵을 기초로 서로 다른 크기의 물체를 감지하기 위한 3차원 특징맵들을 출력하는 단계; 및 상기 인식 네트워크가 상기 3차원 특징맵들을 이용하여 건설 장비들 각각의 위치, 종류 및 동작을 분류하는 단계를 포함할 수 있다.