Deep Learning

[Paper] Separable Self-attention for Mobile VisionTransformers

ju_young 2022. 12. 26. 00:44
728x90

Introduction

MobileViT는 CNN과 ViT의 장점을 가지는 light-weight network이다. 본 논문에서는 linear complexity를 가지는 separable self-attention을 소개한다.

separaple self-attention은 위와 같이 quadratic MHA를 두 개의 linear computation으로 대체하면서 global information을 encoding 한다.

 

Separable self-attention

  • $c_s$: context score
  • $c_v$: context vector
  • $x_K$: dxd 차원의 weight를 가지는 key를 사용하여 linearly projection

contextual information을 가지는 $c_v$는 $ReLU(xW_v)$와 element-wise multiplication을 하고 $W_O$ weight를 가지는 linear layer를 통과한다.

 

iPhone12에서의 측정 결과

 

728x90