12.1 일반 사례를 위해 만들어진 도구로 작업하기

 

표본 간 데이터를 '공유'하지 않는 비시계열 데이터용 모델

시계열 데이터의 이산적인 표본을 알고리즘에 주입하는 경우, 데이터가 많이 겹친다는 것을 알게 된다. 다음과 같은 월간 판매 기록 데이터가 있다고 가정해보자.

예측은 최근접 곡선에 각각의 '모양'을 매핑하는 방식으로 준비한다. 6개월 기간의 곡선을 구성하는 데이터는 다음과 같다.

흥미로운 점은 추가 정보 없이 데이터를 6배 크게 만들어준다. 

 

1) 중첩 데이터를 사용하지 말 것

2) 제너레이터와 같은 패러다임을 사용해서 데이터셋 반복 접근하기

 

 

사전 계산을 하지 않는 모델로 측정와 예측 사이에 불필요한 지연 발생

시계열의 요약 특징(평균, 표준편차 등)으로 최근접 이웃을 찾는 클러스터링 모델을 사용하면, 데이터가 하나 부족한 시계열에 대해 모델을 실행하여 최근점 이웃을 식별하여 계산될 수 있다.


12.2 데이터 스토리지 형식의 장단점

1) 바이너리 형식의 데이터 저장

i/o에 관련된 속도 저하 문제를 해결할 수 있다.

 

12.2.2 데이터를 '슬라이딩'할 수 있는 방식의 전처리

시간 윈도를 통해 정확성을 향상시킬 수 있다. 하지만 아래와 같은 단점이 있다.


12.3 성능 고려 사항에 맞게 분석 수정

1) 다운샘플링 : 과거의 윈도를 다루기 위해 적은 빈도의 데이터를 사용할 수 있는 경우가 있다. 이는 데이터를 축소하는 방식이다.

2) 모델 훈련에 최근 데이터만 사용하기

3) 예측에 사용되는 과거의 윈도 크기 줄이기

 

728x90
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 라이프코리아트위터 공유하기
  • shared
  • 카카오스토리 공유하기