"시계열이 정상성이다." : 시간의 흐름에 따라 '통계적 특성'이 변하지 않는다. 비정상성을 지니는 데이터를 정상화 알고리즘을 적용해 예측 본 데이터의 특성을 적용하여 다시 본 데이터의 특성을 가지는 상태에서의 예측값을 도출 정상성 변환을 하는 이유 일반적인 경우에, 예측 범위의 상한, 하한이 정해져 있지 않다. 하지만, 정상성 변환 과정을 거치면 상한과 하한이 어느정도 예측 가능한 범위 내로 좁혀지게 된다. 이것 외에도 Variance나 Autocorrelation 등의 고려 요소도 사라지게 된다. 중요한 것은 정상성 그 자체보다는 정상성을 하는 이유가 더 중요하다. 정상성은 한가지 수단에 불과하고, 정상성 변환을 하는 이유로 다른 수단을 사용할 수 있어야 한다. 강정상, 약정상 강정상 : 모든 통계량..
시계열 데이터 검색 결과
데이터는 이전 포스팅에서 어디에서 가져올 수 있는지 확인 가능하다. 데이터 불러오기 !python -m pip install --user --upgrade pip 위의 코드를 주피터 노트북에서 실행함으로써, anaconda prompt에서 입력해야 하는 명령어를 주피터 노트북 상에서 실행할 수 있다. #ignore wanrings import warnings # warnings.filterwarnings('always') # 항상 warning이 뜨도록 설정 warnings.filterwarnings('ignore') #System related and data input controls import os #Data manipulation and visualization import pandas as p..
데이터 분리 데이터 분석 K-fold 교차 검증을 이용하여 무작위로 데이터를 섞은 다음, 추출하여 일정한 비율만큼을 훈련과 테스트 셋으로 정한다. 시계열 데이터 분석 바로 다음 단계(혹은 2단계)의 데이터를 차례대로 하나씩 일반적인 데이터 분석과 시계열 데이터 분석에서 훈련 / 테스트 데이터를 분리할 때 가장 특징적인 차이점은 시간 순서의 유지 여부이다. 이미지에서 볼 수 있듯이, 이전 데이터들을 학습하여 바로 다음의 값을 예측하고, 이후에 예측한 값 자체를 훈련 데이터와 합하여 그 다음 예측을 진행해 나가는 1스텝 교차 검사(One-step Ahead Cross-Validation)이 있고, 하나를 건너 뛰어서 같은 원리로 예측과 훈련을 반복적으로 수행하는 2스텝 교차검사 (Two-step Ahead ..
본격적으로 시계열 분석에 들어가기 전에 기본적인 데이터 분석의 진행 방향에 대해서 먼저 다뤄보자. 이상적인 데이터 분석 단계 1. 데이터 수집 2. 데이터 전처리 3. 데이터 정리 4. 데이터 분석 5. 결과 정리 하지만, 현실적인 데이터 분석의 과정에서는 이 과정들이 칼로 벤 것처럼 딱 맞아 떨어지지 않는다! 데이터 분석 1단계 문제를 정의하는 단계 - 무엇을 예측할 것인가? (ex> 직원들의 퇴사율) - 필요한 데이터는 어떤 것인가? (ex> 직원들이 의자에서 일어나는 횟수, 화장실 가는 빈도 등) - 각 상태를 나타내는 기준은 어떻게 정할 것인가? 2단계 통상적으로 현재 우리가 집중적으로 공부하고 있는 분야 - 데이터 전처리 - 최적의 알고리즘 선정 - 선정한 알고리즘에 전처리한 데이터 입력 및 결..
최근댓글