본 개시는, 적어도 하나의 명령어를 저장하는 메모리, 및 메모리에 저장된 적어도 하나의 명령어를 실행하는 적어도 하나의 프로세서;를 포함하고, 적어도 하나의 프로세서는 적어도 하나의 명령어를 실행하여, 입력 텐서를, 컨볼루션 연산을 일반 행렬 곱(General Matrix Multiplication; GEMM) 연산으로 수행하도록, 전개하면 획득되는 전개된(unfolded) 입력 텐서를 구성하는 복수의 데이터 타일들의 제1 배열(array)을 식별하고, 복수의 데이터 타일들 중 데이터 유사도가 가장 높은 한 쌍의 데이터 타일들 사이의 제1 배열 상의 거리를 나타내는 타일 거리를 식별하고, 타일 거리에 기초하여 복수의 데이터 타일들을 그룹화하여 복수의 데이터 타일 세트들을 형성하고, GEMM 연산을 병렬적으로 처리하는 복수의 컴포넌트들에 복수의 데이터 타일 세트들을 할당하는, 신경망 가속기 및 그의 제어 방법을 포함한다.