RNN 기반 seq2seq 모델의 문제 하나의 고정된 크기의 벡터에 모든 정보를 압축하려고 하니까 정보 손실이 발생 기울기 소실(vanishig gradient) 문제가 존재 Attention Idea 디코더에서 출력 단어를 예측하는 매 time step마다 인코더에서의 전체 입력 문장을 다시 한 번 참고 전체 입력 문장을 전부 참고하는 것이 아닌해당 시점에서 예측해야할 단어와 연관이 있는 입력 단어 부분을 좀 더 attention Attention function 더보기 Q = Query : 모든 시점의 디코더 셀에서의 은닉 상태 K = Keys : 모든 시점의 인코더 셀의 은닉 상태들 V = Values : 모든 시점의 인코더 셀의 은닉 상태들 1. 쿼리(Query)에 대해서 모든 키(Key)와의 유..