스캔도서 식별을 위한 특징벡터 클러스터링 및 데이터베이스 생성 방법이 개시된다. 개시된 방법은 스캔 도서들로부터 특징 벡터들을 추출하는 단계; 상기 특징 벡터들간의 해밍 거리를 획득하는 단계; 상기 획득된 해밍 거리에 기초하여 특징 벡터들의 클러스터를 형성하는 단계를 포함하되, 상기 해밍 거리를 획득하는 단계는 상기 특징 벡터들을 다수의 블록으로 구분하여 병렬 분산 처리에 의해 수행되는 것을 특징으로 한다. 개시된 방법에 따르면, 특징벡터 클러스터링 및 데이터베이스 생성에 있어서 종래기술보다 빠른 속도로 거리 행렬을 구할 수 있는 장점이 있다.