저번 실습을 진행한 결과, 간단한 모델을 사용해서 예측을 진행했음에도, R-squared의 값이 1.0이 나왔다. 이것을 조금 더 현실적인 부분을 반영해서 데이터 전처리를 진행해보자. 왜 R-squared 값이 1이 나왔을까? Test Data의 정보를 Train Data에 반영했기 때문이다. 그렇다면 Test Data는 알려지지 않은 데이터를 어떻게 가정하고 풀어야 하는가? 1. Training Data의 특성이 그대로 반복된다고 가정한다. 2. 한단위씩 예측을 수행하고, Training Data를 갱신해나가면서 학습 및 예측을 수행한다. 특히, 2번에 관해서는 1스텝 교차 검사, 2스텝 교차검사 등이 있다. 기존에 시계열 분석에서 Train Data와 Test Data를 분리하는 경우에는 특정 시점을..
train_test_split 검색 결과
해당 글 2건
현실적인 데이터 전처리
딥러닝/시계열
2021. 3. 5. 16:20
Python Scikit-learn sklearn.model_selection API
API Reference — scikit-learn 0.23.1 documentation scikit-learn.org Scikit-learn API - sklearn.model_selection 훈련세트와 테스트 세트를 나눌 때, 교차검증을 위한 검증 세트를 나눌 때, 하이퍼 파라미터 튜닝을 최적화 하기 위한 용도로 사용되는 클래스와 함수들을 모아둔 API Splitter Classes model_selection.GroupKFold([n_splits]) model_selection.GroupShuffleSplit([...]) model_selection.KFold([n_splits, shuffle, ...]) model_selection.LeaveOneGroupOut model_selection.Le..
Programming Language/python
2020. 7. 9. 14:41
최근댓글