본 개시에 따른 일 실시 예는 건설 환경에 대한 영상 데이터를 획득하는 영상 획득 모듈, 영상 획득 모듈과 작동적으로 연결되는 프로세서를 포함하고, 프로세서는 영상 데이터로부터 적어도 하나의 객체를 객체 검출 모델(object detection model)을 통해 검출하고, 검출된 적어도 하나의 객체 및 영상 획득 모듈 간의 거리에 대응하는 픽셀 별 깊이 값을 깊이 추정 모델(depth estimation model)을 통해 추정하고, 검출된 적어도 하나의 객체 별로 영상 전처리를 수행하여 적어도 하나의 영상 클립을 생성하고, 생성된 적어도 하나의 영상 클립 및 추정된 픽셀 별 깊이 값에 대해 행동 인식 모델(action recognition model)을 적용하여 건설 작업자의 행동을 인식하여 안전 상태에 대한 데이터를 생성하는 모니터링 장치가 개시된다. 이 외에도 명세서를 통해 파악되는 다양한 실시 예가 가능하다.