Transformer 기계 번역의 경우를 생각했을 때 다음과 같이 하나의 문장을 입력으로 받아 다른 언어로 된 번역을 출력으로 내놓는다고 하자. 이러한 것을 'sequence to sequence'라고 부르기도 한다. transformer에는 아래 그림처럼 크게 encoding을 하는 encoder, decoding을 하는 decoder, 그 사이를 이어주는 connection으로 구성되어있다는 것을 확인할 수 있다. encoding하는 부분은 다음과 같이 여러 개의 encoder를 쌓아 올린것이고 decoding 부분도 endcoding 부분과 동일한 개수만큼의 decoder를 쌓아올린 것이다. encoder들은 모두 아래와 같이 self-attention과 feed forward neural netw..