728x90
Introduction
MobileViT는 CNN과 ViT의 장점을 가지는 light-weight network이다. 본 논문에서는 linear complexity를 가지는 separable self-attention을 소개한다.
separaple self-attention은 위와 같이 quadratic MHA를 두 개의 linear computation으로 대체하면서 global information을 encoding 한다.
Separable self-attention
- $c_s$: context score
- $c_v$: context vector
- $x_K$: dxd 차원의 weight를 가지는 key를 사용하여 linearly projection
contextual information을 가지는 $c_v$는 $ReLU(xW_v)$와 element-wise multiplication을 하고 $W_O$ weight를 가지는 linear layer를 통과한다.
728x90