이번 포스티에서는 시계열뿐만 아니라, 전반적인 데이터 분석에서 최근 많이 사용되는 앙상블 기법들이 어떤 의미를 갖는 지에 대해서 설명할 것이다. 앙상블(Ensemble) 앙상블이란, 하나의 데이터 모델을 학습하여 예측하지 않고, 여러 데이터 모델들을 생성하여, 각각 학습을 진행하고, 예측을 하여, 예측 결과들을 통해서 최종 예측 결과를 도출하는 기법을 의미한다. 단순하게 생각하면, 여러 데이터 모델들을 이용하여 예측을 하는 기법이라고 생각하면 된다. 앙상블 기법과, Bagging, Boosting의 기술적인 내용은 https://dsbook.tistory.com/165?category=761052 와 그 후속 포스팅에 자세하게 나와있으니 이것을 참고하자. Bias-Variance Trade-Off 데이터..
데이터 분석 검색 결과
데이터 분리 데이터 분석 K-fold 교차 검증을 이용하여 무작위로 데이터를 섞은 다음, 추출하여 일정한 비율만큼을 훈련과 테스트 셋으로 정한다. 시계열 데이터 분석 바로 다음 단계(혹은 2단계)의 데이터를 차례대로 하나씩 일반적인 데이터 분석과 시계열 데이터 분석에서 훈련 / 테스트 데이터를 분리할 때 가장 특징적인 차이점은 시간 순서의 유지 여부이다. 이미지에서 볼 수 있듯이, 이전 데이터들을 학습하여 바로 다음의 값을 예측하고, 이후에 예측한 값 자체를 훈련 데이터와 합하여 그 다음 예측을 진행해 나가는 1스텝 교차 검사(One-step Ahead Cross-Validation)이 있고, 하나를 건너 뛰어서 같은 원리로 예측과 훈련을 반복적으로 수행하는 2스텝 교차검사 (Two-step Ahead ..
본격적으로 시계열 분석에 들어가기 전에 기본적인 데이터 분석의 진행 방향에 대해서 먼저 다뤄보자. 이상적인 데이터 분석 단계 1. 데이터 수집 2. 데이터 전처리 3. 데이터 정리 4. 데이터 분석 5. 결과 정리 하지만, 현실적인 데이터 분석의 과정에서는 이 과정들이 칼로 벤 것처럼 딱 맞아 떨어지지 않는다! 데이터 분석 1단계 문제를 정의하는 단계 - 무엇을 예측할 것인가? (ex> 직원들의 퇴사율) - 필요한 데이터는 어떤 것인가? (ex> 직원들이 의자에서 일어나는 횟수, 화장실 가는 빈도 등) - 각 상태를 나타내는 기준은 어떻게 정할 것인가? 2단계 통상적으로 현재 우리가 집중적으로 공부하고 있는 분야 - 데이터 전처리 - 최적의 알고리즘 선정 - 선정한 알고리즘에 전처리한 데이터 입력 및 결..
Select a specific programming language 문제정의 현재, 과 동기들과 함께 ‘월간 데이콘 4 코로나 데이터 시각화 경진대회’에 참여를 했다. 기존에 알고 있던 언어인 파이썬으로 데이터 분석을 할 수 있었다. 하지만, 주제가 시각화인 만큼, 시각적인 효과를 잘 나타낼 수 있는 그래프나 도표들을 이용하고 싶었다. 파이썬으로 matplotlib이나 seaborn등의 라이브러리를 이용해서 어느 정도 표현을 하는 것은 가능했으나, 내가 원하는 만큼의 시각화 효과를 줄 수 없는 것이 아쉬웠다. 시각화를 위해서 많이 쓰이는 언어들 Python : matplotlib, seaborn 외에도 folium으로 시각화를 하는데에 많이 사용한다. 하지만, 시각화 툴을 가지고 있는 정도이지, 시각화..
최근댓글