Introduction 위 그림의 (b)처럼 ViT는 columnar 구조를 가져서 coarse한 이미지 패치를 가진다. 그래서 pixel-level dense prediction(object detection, segmentation)에서 다음과 같은 한계를 가진다. output feature map은 single-scale과 low-resolution을 가진다. 연산과 메모리 비용이 비교적 높다. 위 한계를 극복하기위해 본 논문에서는 Pyramid Vision Transformer(PVT)를 제안한다. 위 그림의 (c)가 바로 PVT이고 전통적인 Transformer의 다음과 같은 어려움들을 극복했다. 4x4 pixels per patch와 같이 fine-grained 이미지 패치를 사용하여 high..