[Transformer 모델 구조 분석] Attention Is All You Need
이번에 소개할 모델은 Transformer로, 이 논문을 처음 제안한 "Attention Is All You Need"의 논문과 여러 자료를 참고하여 알게 된 내용들을 포스팅하겠습니다. Sequence Modeling Sequence Modeling이란, 시계열 데이터, 텍스트, 음성, 비디오 등의 연속적이고, 순차적인 데이터에서 패턴과 관계를 학습하여 해당 시점(Time point) 이후에 다음으로 나올 값을 예측하는 것을 의미합니다. Transformer가 등장하기 전에는 RNN, LSTM이 Sequence Modeling에서 가장 좋은 성능을 보이고 있었습니다. 하지만, 이런 모델들은 본인들이 예측한 결과가 다음 Time Step에서 입력으로 들어가야 하는 학습 구조에서 오는 문제가 발생하였습니다...
딥러닝/자연어처리
2023. 2. 20. 11:04
최근댓글