악성코드 문자열 집합 데이터에 대한 대표 룰셋 생성 방법이 개시된다. 개시된 방법은, 악성 코드들에 대한 편집 거리를 계산하고, 미리 설정된 거리 내에 잇는 악성 코드들을 그룹핑하여 클러스터를 생성하는 단계; 상기 생성된 클러스터별로 클러스터를 대표하는 정규 표현식을 생성하는 단계; 각각의 클러스터에 속하는 문자열들과 대표 룰셋(정규표현식)을 학습데이터로 사용하여 클러스터링 문자열 집합에 대한 정규표현식을 seq2seq 구조로 학습시키는 단계를 포함한다. 개시된 방법에 의하면, 악성 코드에 대한 빠른 대처가 가능하고 신뢰성을 확보할 수 있는 장점이 있다.