자원 관리자(Resource Manager) 개요
출처: https://sabryr.github.io/hpc-intro/13-scheduler/index.html
출처: http://docs.adaptivecomputing.com/torque/5-0-1/Content/topics/moabWorkloadManager/topics/optimization/backfill.html#overview
: https://slurm.schedmd.com/SLUG19/Priority_and_Fair_Trees.pdf
3. SLURM 구성 파일
SLURM 은 다음과 같은 파일에 의해 구성 됩니다.
위 치 |
내 용 |
---|---|
/etc/slurm.conf |
일반 Slurm 구성 정보, 관리 할 노드, 해당 노드가 파티션으로 그룹화되는 방법에 대한 정보 및 |
/etc/gres.conf |
각 계산 노드의 GRES (Generic RESource)의 구성 정보를 지정. |
명령어 |
내용 |
---|---|
sinfo |
Slurm 노드 및 파티션에 대한 정보를 봅니다. |
squeue |
Slurm 스케줄링 대기열에 있는 작업에 대한 정보를 봅니다. |
srun |
실시간으로 실행할 작업을 제출하는 데 사용됩니다. |
sbatch |
Slurm에 배치(batch/일괄작업) 스크립트를 제출 합니다 |
scancel |
제출된 작업을 취소 합니다. |
scontrol |
작업, 작업 단계, 노드, 파티션, 예약 및 전체 시스템 구성을 포함한 Slurm 구성을 보거나 수정하는 데 사용 합니다. |
>> sinfo 의 node STATE
상태 |
내용 |
---|---|
idle |
정상, 대기 중 |
mix |
일부자원 사용중 |
alloc |
모든자원 사용중 |
down |
비정상, 연결 되어있지 않음. |
5. SLURM 우선순위 정책
내용 |
명칭 |
값 |
---|---|---|
실행 작업 |
MaxJobs= |
10 |
3) 계정(Account) 개별 적용 정책 (사용자 그룹)
내용 |
명칭 |
값 |
---|---|---|
계정 이름 |
Account |
default |
기준 사용량 |
fairshare= |
10000 |
최대 실행 작업 |
GrpJobs= |
100 |
최대 제출 작업 |
GrpSubmit= |
200 |
최대 실행 시간 |
MaxWall= |
3-00:00:00 |
최대 GPU 수 |
GrpTRESS= |
gres/gpu=50 |
4) QOS 정책 / 기본 정책을 벗어나는 예외 적용
내용 |
명칭 |
값 |
---|---|---|
QOS 이름 |
Name |
small-fast |
우선 순위 |
Priority= |
150 |
user당 최대 실행 작업 |
MaxJobsPU= |
10 |
user당 최대 제출 작업 |
MaxSubmit= |
20 |
최대 실행 기간 |
MaxWall= |
3:00:00 |
최대 GPU 수 |
MaxTRES= |
gres/gpu=30 |
node당 최대 GPU |
MaxTRESPerNode= |
gres/gpu=1 |
node당 최소 GPU |
MinTRES= |
gres/gpu=4 |