이번 ICLR 2023에 있었던 논문에 대해서 리뷰를 진행한다. (https://arxiv.org/abs/2210.09461) 이 논문은 Transformer의 정확도를 유지하면서도, 연산량을 줄여 모델이 한번에 처리할 수 있는 정보의 양을 늘리기 위해서 ToMe(Token Merging)이라는 기법을 제안한 논문이라고 볼 수 있다. 이 포스팅에서는 ToMe라는 기법에 대해서 살펴보고, 주요한 실험 결과를 정리해 볼 예정이다(모든 실험 결과를 다루지는 않는다!). Introduction Transformer가 등장한 이후, NLP, Computer Vision 등 다양한 분야에서 Transformer를 기반으로 한 모델들이 쏟아져 나오고 있다. 특히나, Vision Transformer가 등장한 이후에는..
transformer 검색 결과
이번에 소개할 모델은 Transformer로, 이 논문을 처음 제안한 "Attention Is All You Need"의 논문과 여러 자료를 참고하여 알게 된 내용들을 포스팅하겠습니다. Sequence Modeling Sequence Modeling이란, 시계열 데이터, 텍스트, 음성, 비디오 등의 연속적이고, 순차적인 데이터에서 패턴과 관계를 학습하여 해당 시점(Time point) 이후에 다음으로 나올 값을 예측하는 것을 의미합니다. Transformer가 등장하기 전에는 RNN, LSTM이 Sequence Modeling에서 가장 좋은 성능을 보이고 있었습니다. 하지만, 이런 모델들은 본인들이 예측한 결과가 다음 Time Step에서 입력으로 들어가야 하는 학습 구조에서 오는 문제가 발생하였습니다...
Attention을 소개하기 앞서 NLP의 발전과정에 대해 설명하겠습니다. 먼저 첫 번째로 RNN은 Neural network에서 recurrent 순환형 구조를 추가한 것, LSTM은 기존 RNN이 역전파가 길어질 시 단점이 생겨 hidden state에 cell-state를 추가하여 발전시킨 것입니다. Seq2Seq2는 RNN을 구조를 사용해서 인코더, 디코더 구조로 변환해서 번역 수행하였습니다. Attention은 모든 입력 시퀀스를 참고. Transformer는 RNN, CNN사용 안하고 Attention만 사용. 그리고 Transformer의 인코더를 활용한게 GPT, Transformer의 디코더를 활용한게 BERT모델입니다. 그만큼 Transformer는 매우 중요합니다. 그리고 여기서 점선..
최근댓글