'Pyramid Vision Transformer' 태그의 글 목록

[Paper] Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction Without Convolutions

Introduction 위 그림의 (b)처럼 ViT는 columnar 구조를 가져서 coarse한 이미지 패치를 가진다. 그래서 pixel-level dense prediction(object detection, segmentation)에서 다음과 같은 한계를 가진다. output feature map은 single-scale과 low-resolution을 가진다. 연산과 메모리 비용이 비교적 높다. 위 한계를 극복하기위해 본 논문에서는 Pyramid Vision Transformer(PVT)를 제안한다. 위 그림의 (c)가 바로 PVT이고 전통적인 Transformer의 다음과 같은 어려움들을 극복했다. 4x4 pixels per patch와 같이 fine-grained 이미지 패치를 사용하여 high..

Deep Learning 2022.10.03

JADE's Repository

728x90

Pyramid Vision Transformer 1

티스토리툴바

728x90 (adsbygoogle = window.adsbygoogle || []).push({}); Pyramid Vision Transformer 1

티스토리툴바

728x90

Pyramid Vision Transformer 1