728x90
transformer
5

[Paper] CvT: Introducing Convolutions to Vision Transformers

Introduction 많은 데이터에서 ViT의 성공에도 불구하고 성능은 여전히 비슷한 양의 데이터, 비슷한 크기의 CNN과 비슷하다. 아마도 그 이유 중 하나로 CNN 구조에서 어떤 특성들이 ViT에 부족한 것이다. 예를 들어 이미지는 인접한 픽셀들끼리 높은 관계를 가지는 것과 같은 2D local structure를 가진다. CNN 구조는 local receptive fields, shared weights, spatial subsampling(max pooling, average pooling 같은 것들을 말함), invariance 등과 같은 것들로 local structure를 잡아낼 수 있다. 또한 convolutional kernel의 계층 구조는 다양한 level의 복잡도에서 local s..

Deep Learning 2022.11.08

[Paper] Escaping the Big Data Paradigm with Compact Transformers

Introduction Convolution의 중요한 개념으로 다음 세 가지를 말할 수 있다. sparse interaction weight sharing equivariant representations 각각의 개념들에 대해서 리마인드해보자. sparse interaction sparse interaction은 위 그림의 윗부분처럼 이전 layer의 output이 다음 layer의 input이 될 때 fully connected가 아니라 일부만 연결이 되어서 유의미한 feature만 찾을 수 있는 것을 말한다. parameter share sparse interaction에서 그림의 아래부분처럼 파라미터를 공유하지 않을 경우 input의 하나하나 모두 연결되어 전체적으로 데이터를 한 번에 본다. 하지만..

Deep Learning 2022.11.01

[Paper] Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction Without Convolutions

Introduction 위 그림의 (b)처럼 ViT는 columnar 구조를 가져서 coarse한 이미지 패치를 가진다. 그래서 pixel-level dense prediction(object detection, segmentation)에서 다음과 같은 한계를 가진다. output feature map은 single-scale과 low-resolution을 가진다. 연산과 메모리 비용이 비교적 높다. 위 한계를 극복하기위해 본 논문에서는 Pyramid Vision Transformer(PVT)를 제안한다. 위 그림의 (c)가 바로 PVT이고 전통적인 Transformer의 다음과 같은 어려움들을 극복했다. 4x4 pixels per patch와 같이 fine-grained 이미지 패치를 사용하여 high..

Deep Learning 2022.10.03

[Paper] Tokens-to-Token ViT

Introduction ViT가 ImageNet과 같은 midsze dataset (양이 중간 크기인 데이터셋)에서 CNN보다 떨어지는 이유를 다음 두 가지로 꼽았다. 간단한 토큰화 (hard하게 patch split하는 것을 말함)는 중요한 local structure를 모델링할 수 없고 train 효율이 떨어진다. 따라서 더 많은 학습 샘플들을 필요로 한다. ViT의 attention bachbone은 고정된 연산량과 제한된 학습 샘플은 제한된 feature들로 이어진다. 위 가설을 검증하기위해 ViT-L/16과 ResNet50에서 학습된 feature들의 차이를 다음과 같이 시각화하였다. (1) ResNet (2) ViT (3) T2T-ViT 내부 그림 ResNet과 T2T-ViT에서 녹색 박스를 ..

Deep Learning 2022.08.09

[NLP] Attention Mechanism

RNN 기반 seq2seq 모델의 문제 하나의 고정된 크기의 벡터에 모든 정보를 압축하려고 하니까 정보 손실이 발생 기울기 소실(vanishig gradient) 문제가 존재 Attention Idea 디코더에서 출력 단어를 예측하는 매 time step마다 인코더에서의 전체 입력 문장을 다시 한 번 참고 전체 입력 문장을 전부 참고하는 것이 아닌해당 시점에서 예측해야할 단어와 연관이 있는 입력 단어 부분을 좀 더 attention Attention function 더보기 Q = Query : 모든 시점의 디코더 셀에서의 은닉 상태 K = Keys : 모든 시점의 인코더 셀의 은닉 상태들 V = Values : 모든 시점의 인코더 셀의 은닉 상태들 1. 쿼리(Query)에 대해서 모든 키(Key)와의 유..

Deep Learning 2022.02.08
728x90