Instroduction 최근 ViT는 다양한 computer vision 분야에서 주목을 받고 많은 성공을 이루어냈다. 하지만 deployment 관점의 ViT는 CNN보다 훨씬 느리기때문에 여전히 CNN이 압도하고 있다. ViT의 높은 latency를 해결하기위해 많은 연구가 이루어졌다. 예를 들어 Swin Transformer, PVT(Pyramid Vision Transformer)는 MHSA(Multi-Head Self Attention)의 quadratic하게 증가하는 연산량을 개선시켰다. 이외에도 MobileViT, Efficientformer, Coatnet 등은 convolution block들과 Transformer block들을 결합하여 accuracy와 latency의 trade-o..