ASP는 모델의 학습, 추론 속도를 높이고 메모리 효율과 accuracy를 유지하는 것이 목적, 이를 위해 weight를 saprse하게 연산할 수 있게 하는 mask를 구하는 방식이다. NVIDIA ampere gpu 에서는 2:4 fine grained sparsity가 지원되어있다. 이 방식으로 pruning을 지원하다. 2:4 fine grained sparsity는 아래 그림을 확인하면 간단하게 이해할 수 있다. 2:4 fine grained sparsity는 위 그림과 같이 1D 또는 2D (2D도 가능하다)에서 작은 값 2개를 탈락시키는 방식으로 동작한다. 이렇게 생선된 마스크를 사용해서 weight는 이렇게 pruned 되어있는 살이있는 value들만 모아서 아래 그림의 오른쪽 Sparse..