728x90
CVT
2

[Paper] CvT: Introducing Convolutions to Vision Transformers

Introduction 많은 데이터에서 ViT의 성공에도 불구하고 성능은 여전히 비슷한 양의 데이터, 비슷한 크기의 CNN과 비슷하다. 아마도 그 이유 중 하나로 CNN 구조에서 어떤 특성들이 ViT에 부족한 것이다. 예를 들어 이미지는 인접한 픽셀들끼리 높은 관계를 가지는 것과 같은 2D local structure를 가진다. CNN 구조는 local receptive fields, shared weights, spatial subsampling(max pooling, average pooling 같은 것들을 말함), invariance 등과 같은 것들로 local structure를 잡아낼 수 있다. 또한 convolutional kernel의 계층 구조는 다양한 level의 복잡도에서 local s..

Deep Learning 2022.11.08

[Paper] Escaping the Big Data Paradigm with Compact Transformers

Introduction Convolution의 중요한 개념으로 다음 세 가지를 말할 수 있다. sparse interaction weight sharing equivariant representations 각각의 개념들에 대해서 리마인드해보자. sparse interaction sparse interaction은 위 그림의 윗부분처럼 이전 layer의 output이 다음 layer의 input이 될 때 fully connected가 아니라 일부만 연결이 되어서 유의미한 feature만 찾을 수 있는 것을 말한다. parameter share sparse interaction에서 그림의 아래부분처럼 파라미터를 공유하지 않을 경우 input의 하나하나 모두 연결되어 전체적으로 데이터를 한 번에 본다. 하지만..

Deep Learning 2022.11.01
728x90