NLP 논문 리뷰 - GPT1 (Improving Language Understanding by Generative Pre-Training)
1. Introduction 기존으 NLP모델은 labeled된 데이터를 바탕으로 지도학습을 했다. 하지만 존재하는 데이터는 unlabeled data가 훨씬 많기 때문에, unlabeled data의 정보를 활용한다면 훈련에 필요한 시간과 비용을 절약할 수 있다. 하지만 unlabeled data의 정보를 활용하는 것이 힘든 이유는 크게 두가지가 있다. 1) 어떤 목적함수(Optimization objective)가 효과적인지 알 수 없다. 2) 모델에서 학습된 표현(reprentation)을 다양한 NLP task로 전환하는데 가장 효율적인 방법이 정해지지 않았다. GPT-1은 이 두 가지 단점을 보완하고자 하였는데, 먼저 unsupervised로 pre-training하고 supervised로 fi..
딥러닝/자연어처리
2021. 4. 15. 10:35
최근댓글