"시계열이 정상성이다." : 
시간의 흐름에 따라 '통계적 특성'이 변하지 않는다. 

 

<과정> 

  1. 비정상성을 지니는 데이터를 정상화
  2. 알고리즘을 적용해 예측 
  3. 본 데이터의 특성을 적용하여 다시 본 데이터의 특성을 가지는 상태에서의 예측값을 도출 

 

 

정상성 변환을 하는 이유 

일반적인 경우에, 예측 범위의 상한, 하한이 정해져 있지 않다. 하지만, 정상성 변환 과정을 거치면 상한과 하한이 어느정도 예측 가능한 범위 내로 좁혀지게 된다. 이것 외에도 Variance나 Autocorrelation 등의 고려 요소도 사라지게 된다. 

중요한 것은 정상성 그 자체보다는 정상성을 하는 이유가 더 중요하다. 
정상성은 한가지 수단에 불과하고, 정상성 변환을 하는 이유로 다른 수단을 사용할 수 있어야 한다. 

 

 

 

강정상, 약정상

 

  • 강정상 : 
    모든 통계량이 모든 시간에 대해 일치하도록 값이 나오는 것. 
    (가우시안) 백색 잡음(White Noise) → 시계열 분석 알고리즘 중 가장 기본이 되는 알고리즘 
    정규 분포이고 평균이 0이며, 분산이 일정하다. + 임의의 해당 시점에 대해 correlation  = 0
  • 약정상 : 
    평균이 일정 / 분산이 일정 / correlation이 일정 

 

강정상의 조건을 만족시키는 것이 현실적으로 어려운 경우가 대다수이기 때문에, 약정상의 조건을 만족시키는 것이라도 데이터를 정상화시켰다고 표현한다. 

 

 

 

 

비정상 확률과정 

 

정상성의 조건을 하나라도 만족하지 않는 경우를 의미한다. 
대표적인 알고리즘 ) "랜덤 워크 (Random Walk) " 

랜덤워크는 해당 시점의 해당 위치에서 다음 단위 시간으로 변화하면서 가우시안 백색잡음이 더해지는 형태가 된다. 그렇다면, 현재 시점과 미래시점의 차이를 계산한다면, 정상성을 만족시키는 데이터가 나오게 될 것이다. 

이렇게, 앞 시점과 현재 시점의 차이를 계산하는 것을 '차분(Difference)'라고 표현한다. 
차분(diff) : 이전 시점과 현재 시점의 차이, Y_t의 증분(증가량)

이렇게 정상성을 만족시킨 후 분석, 예측을 수행한 후 다시 원본 데이터로 되돌리기 위해서는 처음 인덱스부터 해당 인덱스까지의 데이터 누적합(cumsum)을 통해서 변환할 수 있다. 

 

 

 

정상성을 통해 얻을 수 있는 이점 

 

  • 예측 효과가 증가한다. (예측 범위가 무한대에서 일정 범위로 줄어들기 때문)
  • 파라미터의 수가 감소하여 단순한 알고리즘을 사용할 수 있으며, 이로 인해서 과적합(Overfitting)을 방지할 수 있다. 

 

 

 

정상성을 Test하는 방법 3가지

 

  1. 시각화 테스트
  2. 기초통계 테스트
  3. 검정 통계량 테스트

 

시각화 테스트는 데이터를 말그대로 시각화 하여 어떠한 패턴을 가지고 있는지, 정상성을 띄고 있는지를 확인하는 방법이다. 
기초 통계 테스트는 평균, 분산 등을 이용해서, 평균이 0인지, 분산이 일정한지를 계산해서 확인해보는 방법이다. 
검정 통계량 테스트는 이전에 배웠던 가설 검정을 사용하여 데이터가 정상성을 가지고 있는지 확인해보는 방법이다. 

 

통상적으로 1,2 항목은 동시에 진행하는 경우가 많다. 
→ 시각화를 하고, 특정 간격에 따라서 통계량의 변화를 파악하는 방식으로 진행한다. 

 

3. 검정 통계량 

ADF / ADF-GLS / PP Test
→ p-value < 0.05(지정한 유의 수준) : 수집한 시계열 데이터는 단위근이 없는 정상상태이다. 

KPSS Test 
→ p-value < 0.05(지정한 유의 수준) : 수집한 시계열 데이터는 단위근이 있다. 비정상상태이다. 

 

 

 

잔차보다 Y_t(타겟 데이터)에서 더 정상성을 확보해야 하는 이유 

 

전통적인 시계열 알고리즘을 사용할 때, 데이터가 정상성을 가지고 있지 않다면, 파라미터 추정이 불가능하거나 어렵다. (AR / MA / ARIMA 등) 
범위에 한정되지 않고, 발산한다면, X들을 모두 만족하는 파라미터를 찾기 굉장히 어려워진다. 특히, 하나라도 추정이 되지 않는 파라미터가 존재한다면 시계열 알고리즘은 Error를 출력하고 멈춘다. 

 

 

Reference : 패스트 캠퍼스 파이썬을 활용한 시계열 분석 A-Z

728x90
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 라이프코리아트위터 공유하기
  • shared
  • 카카오스토리 공유하기