12.1 일반 사례를 위해 만들어진 도구로 작업하기 표본 간 데이터를 '공유'하지 않는 비시계열 데이터용 모델 시계열 데이터의 이산적인 표본을 알고리즘에 주입하는 경우, 데이터가 많이 겹친다는 것을 알게 된다. 다음과 같은 월간 판매 기록 데이터가 있다고 가정해보자. 예측은 최근접 곡선에 각각의 '모양'을 매핑하는 방식으로 준비한다. 6개월 기간의 곡선을 구성하는 데이터는 다음과 같다. 흥미로운 점은 추가 정보 없이 데이터를 6배 크게 만들어준다. 1) 중첩 데이터를 사용하지 말 것 2) 제너레이터와 같은 패러다임을 사용해서 데이터셋 반복 접근하기 사전 계산을 하지 않는 모델로 측정와 예측 사이에 불필요한 지연 발생 시계열의 요약 특징(평균, 표준편차 등)으로 최근접 이웃을 찾는 클러스터링 모델을 사용하..
딥러닝/시계열 검색 결과
백테스트 히스토리 데이터에서 예측 모델을 테스트하기 위해 모델링 사용되는 용어이다. 이전 기간에 적용되는 특수한 유형의 교차 검증이다. 학습딘 모델의 역동성을 고려해야 한다. 특히 특정 기간의 데이터로 모델을 학습하는 것을 고려해야 한다. ARIMA와 같은 전통적 통계 모델에서는 모든 데이터가 파라미터를 선택할 때 균등하게 고려되었다. 파라미터가 시간에 따라서 달라져야 한다면, 더 많은 데이터는 모델의 성능을 떨어뜨린다. 11.2 예측하기 좋은 시점 모델의 가능성을 식별하기 위한 방법으로 아래와 같은 조치를 취할 수 있다. 1) 테스트 데이터셋에 대한 모델 출력 그래프 그리기 2) 시간에 따른 모델의 잔차 그래프 그리기 3) 시간을 인식하는 간단한 널 모델에 대해 여러분의 모델 검증하기 4) 모델이 이상..
딥러닝 모델을 사용하면, 통계기반 모델처럼 가정을 하지 않아 아래와 같은 전처리 과정이 사라진다. 1) 정상성을 요구하지 않는다. 2) 계절형 ARIMA 모델의 차수, 계절성에 따른 평가와 같은 파라미터를 고르는 기술을 개발할 필요가 없다. 3) 상태 공간 모델링에서 유용했던 시스템의 역동성에 대한 가설을 세울 필요가 없다. 딥러닝은 입력의 모든 입력 채널의 값이 -1~1 사이로 조정될 때 가장 잘 동작하므로 데이터 전처리 작업이 필요하다는 특징이 있다. 10.1 딥러닝 개념 딥러닝은 인간의 뇌를 모방한 신경망을 더욱 발전시켜 만든 것이다. 비선형 기능을 표현한다. 1) 입력계층과 은닉계층 사이 가중치 : 4X3 행렬, 계산 결과는 4X1행렬 2) 활성함수를 통해 비선형성 제공 3) Dense layer..
시계열 특징의 생성 및 선택 특징 생성 : 시계열 데이터의 가장 중요한 특성을 정량화하여 수치 및 범주형 레이블로 압축하는 방법을 찾는 과정 예시) 평균과 시간 단계의 개수 특징 생성의 목적 : 많은 정보를 적은 수의 지표로 압축하는 것, 압축된 지표로 중요한 정보를 식별하고 나머지는 제거할 수 있다. 8.1 입문자를 위한 예제 온도가 주기성(일일 순환)을 띄며, 전반적으로 증가하는 추세를 가진다. 이 데이터를 요약지표로 압축하는 방식을 추구한다. 다음과 같은 요약지표로 압축할 수 있다. - 일일/주기성 - 증가하는 추세 - 각각 아침, 점심, 저녁의 평균값 8.2 특징 계산 시 고려 사항 8.2.1 시계열의 특성 특징을 생성하는 과정에서 아래와 같은 기본 성질을 항상 염두해야 한다. 정상성 정상성은 시..
상태공간 모델 실제 상태를 직접 측정할 수 없으며 측정된 것으로부터 추론하는 것만 가능 예시) 공격적으로 차선 변경을 시도하는 운전자 발견 -> 어느 차선으로 진로를 변경하는지 추측(수 초, 수 분 간의 고나찰을 통해 상태공간 모델 갱신) 키워드 선형 가우스 모델에 적용된 칼만 필터, 은닉 마르코프 모형, 베이즈 구조적 시계열 관측에 기반한 근본 상태를 추적하는 작업 필터링 : 시간 t의 상태에 대한 추정 갱신에 시간 t의 측정 사용 (상태에 대한 추정의 갱신에 가장 최근 정보에 가중치를 부여하는 방식) 예측 : 시간 t의 예상되는 상태에 대한 예측 생성에 시간 t-1의 측정을 사용(시간 t의 예상되는 측정의 추론도 가능, 미래에 대한 어떠한 정보도 없이 미래 상태 예측) 평활화 : 시간 t의 참 상태 ..
chap06의 핵심내용 - 자기회귀(AR)모델, 이동평균(MA) 모델, 자기회귀누적이동평균(ARIMA) 모델, 벡터자기회귀(VAR), 계층형 모델 정상성 : 평균과 분산이 시간에 따라 상관관계를 가지지 않는 형태 6.1 선형회귀를 사용하지 않는 이유 선형회귀 분석은 독립항등분포(IID)데이터가 있다는 것을 가정하기 때문에, 시계열 데이터에 해당되지 않는다. 시계열 데이터는 시간에 가까운 데이터일수록 서로 강한 관계를 맺는 경향이 있다. 즉 시계열 데이터에 시간적 상관관계가 없다면 면 미래를 예측하거나 시간의 역동성을 이해하는 등 전통적 시계열 작업을 하기 어렵다. 선형회귀, 최소제곱선형회귀 모델을 다음과 같은 상황일 때 시계열 데이터에 적용해볼 수 있다. 시계열 행동에 대한 가정 - 시계열은 예측 변수에..
chap05 시간 데이터 저장 시계열 데이터의 가치는 실시간 스트리밍보다는 과거에 축적된 데이터에서 자주 발생한다. 따라서 시계열 데이터를 저장하기 위한 스토리지가 반드시 필요하다. - 크기에 따른 성능 확장 방언에 대한 중요성 - 데이터 접근에 대한 무작위적인 방식 대 순차적 방식의 중요성 - 자동화 스크립트의 중요성 5.1 요구 사항 정의 시계열 데이터를 위한 스토리지를 고려할 때, 스스로에게 다음과 같은 질문을 해봐야 한다. - 얼마나 많은 시계열 데이터를 저장해야 하나요? 얼마나 데이터가 빠르게 증가하나요? - 측정에 대한 업데이트가 끊임없이 발생하거나(예: 계속 이어지는 웹 트래픽 스트림), 측정이 구분되는 개별 사건 단위로 발생하나요(예: 지난 10년 동안 미국의 모든 주요 공휴일에 대한 시간..
chap04의 목적 - 시계열 데이터 시뮬레이션 vs 다른 동류 데이터 시뮬레이션 비교 - 실제 코드 기반 시뮬레이션 예 살펴보기 - 시계열 시뮬레이션 동향 살펴보기 4.1 시계열 시뮬레이션의 특별한 점 동일한 시계열에서는 두 데이터가 서로 다른 시간에 일어나므로 정확하게 비교하는 것은 어렵다. 따라서 특정 시간에 발생 가능한 일을 예측하려면 시뮬레이션을 실행해봐야 한다. 4.1.1 시뮬레이션과 예측 시뮬레이션과 예측은 유사하나, 차이점이 있다. - 정성적 관측을 예측보다 시뮬레이션에 통합하는 것이 더 쉬울 수 있다. - 시뮬레이션은 확장 가능하므로, 예측은 시뮬레이션보다 더 신중하게 처리되어야 한다. - 시뮬레이션은 가상이므로 예측보다 위험 부담이 적다. 창의적이고 탐구적인 자세로 설계할 수 있다. 4..
이번 포스티에서는 시계열뿐만 아니라, 전반적인 데이터 분석에서 최근 많이 사용되는 앙상블 기법들이 어떤 의미를 갖는 지에 대해서 설명할 것이다. 앙상블(Ensemble) 앙상블이란, 하나의 데이터 모델을 학습하여 예측하지 않고, 여러 데이터 모델들을 생성하여, 각각 학습을 진행하고, 예측을 하여, 예측 결과들을 통해서 최종 예측 결과를 도출하는 기법을 의미한다. 단순하게 생각하면, 여러 데이터 모델들을 이용하여 예측을 하는 기법이라고 생각하면 된다. 앙상블 기법과, Bagging, Boosting의 기술적인 내용은 https://dsbook.tistory.com/165?category=761052 와 그 후속 포스팅에 자세하게 나와있으니 이것을 참고하자. Bias-Variance Trade-Off 데이터..
1. 주간 인구 패턴 검색 1) 데이터 선택 이전 글 [논문 Review] 온라인 게임의 주간 플레이어 인구 패턴 1에서 제시한 것처럼, 모든 게임에서 플레이어 수의 변동이 주간별 계절성을 보이는 것은 아니다. 그래서 이 클러스터링 과정에는 조각별 선형 추세 제거 기술이 적용 후 계절성이 나타난 1508개의 게임만 사용되었다. 또한, 주간 플레이어의 변동 패턴을 나타내기 위해서는 각 게임의 시계열 데이터에서 플레이어 수가 일주일 내에 어떻게 변동하는지에 대한 모집단 데이터를 추출해야 한다. 그런데, 게임마다 업데이트나 경쟁 등 다양한 이벤트로 인해 추세가 나타날 수도 있기에 0에 가장 가까울 정도의 낮은 추세를 가진 segment에서 데이터를 추출하며, 추세 제거 방법에는 piecewise 선형 제거를 ..
최근댓글