지연값 추출 (count_lag1, count_lag2) 시간의 흐름이 존재하고 있는 데이터에서, 특정한 데이터는 현재 종속변수 Y에 영향을 주는 것이 아닌, 미래의 시간의 종속변수 Y에 영향을 주는 경우가 존재한다. 예를 들어, 투자지원금을 받았다고, 받은 날부터 실적이 오르는 것보다는, 그 이후에 투자지원금을 효율적으로 쓰고, 시간이 어느정도 지난 후에 실적이 나온다는 것을 생각하면 이해하기 쉽다. 이 특성을 데이터 분석에 반영하기 위해서, Series.shift( )를 사용하면 된다. 인자로 입력되는 숫자만큼 데이터가 뒤로 밀리게 된다. 당연히, 뒤로 밀린 개수만큼의 데이터가 NaN값으로 채워지게 되고 이것은 이전에 결측치를 채웠던 방식처럼 pd.fillna( )의 method = 'bfill' ,..
시계열 검색 결과
.rolling( ) (count_day, count_week) 해당 실습에서는 빈도(frequency)를 시간('H')으로 설정했다. 하지만, 이 데이터에서 시간으로 빈도를 설정하는 것이 가장 옳은 방식이라고 단정할 수는 없다. 시간 외에도 일(Day), 주(Week)의 단위에 대해서도 데이터를 분석해봐야 하고, 이때 사용할 수 있는 함수가 .rolling( )이다. pd.concat([raw_all[['count']], raw_all[['count']].rolling(24).mean(), raw_all[['count']].rolling(24*7).mean()], axis = 1).plot(kind = 'line', figsize = (20, 6), linewidth = 3, fontsize = 20,..
데이터는 이전 포스팅에서 어디에서 가져올 수 있는지 확인 가능하다. 데이터 불러오기 !python -m pip install --user --upgrade pip 위의 코드를 주피터 노트북에서 실행함으로써, anaconda prompt에서 입력해야 하는 명령어를 주피터 노트북 상에서 실행할 수 있다. #ignore wanrings import warnings # warnings.filterwarnings('always') # 항상 warning이 뜨도록 설정 warnings.filterwarnings('ignore') #System related and data input controls import os #Data manipulation and visualization import pandas as p..
최근댓글