데이터 셋 : https://www.kaggle.com/c/bike-sharing-demand/data 에서 train.csv파일을 bike_train.csv로 저장한 뒤 실습을 진행한다. 데이터 셋의 피처들을 확인하면 datatime : 날짜 season : 1 = 봄, 2 = 여름, 3 = 가을, 4 = 겨울 holiday : 1 = 주말 및 휴일, 0 = 평일 workingday: 1 = 주중, 0 = 주말 및 휴일 weather : 1 = 맑음, 약간 구름 낀 흐림, 2 = 안개, 안개 + 흐림, 3 = 가벼운 눈, 가벼운 비 + 천둥, 4 = 심한 눈/비, 천둥/번개 temp : 온도(섭씨) atem : 체감 온도(섭씨) humidity : 상대 습도 windspeed : 풍속 casual : ..
전처리 검색 결과
이번 포스팅에서는 회귀 모델을 통해서 학습하기 이전에 어떤 전처리를 거쳐야 하는지, 이름에는 회귀가 포함되어 있지만 실제로는 분류에 많이 사용되는 로지스틱 회귀, 그리고 회귀 트리에 대해서 다뤄보자. 선형 회귀 모델을 위한 전처리 선형 모델 : 피처와 타깃 값 간 선형의 관계가 있다고 가정하고, 이러한 최적의 선형 함수를 찾아내 결과 값을 예측. 피처 값과 타깃 값 모두 정규 분포인 형태를 매우 선호하며, 이 데이터 분포들이 한쪽으로 쏠리는 등 왜곡된 경우에는 예측 성능에 부정적인 영향을 미칠 가능성이 높습니다. 선형 모델의 성능을 높이는 여러가지 전처리 방법 스케일링(Standard Scaler, MinMax Scaler) 1번의 방법이 성능 향상에 큰 영향을 주지 못하는 경우, 다항 특성을 적용하여 ..
시계열 데이터 분석을 위해서 사용하는 데이터는 https://github.com/cheonbi/OnlineTSA/tree/master/Data/BikeSharingDemand에서 다운받을 수 있다. cheonbi/OnlineTSA Online Course of Time Series Analysis. Contribute to cheonbi/OnlineTSA development by creating an account on GitHub. github.com 원본 데이터는 Kaggle에서 가져온 것으로 https://www.kaggle.com/c/bike-sharing-demand/overview 에서 다운받을 수 있다. 데이터 전처리 과정 String to DateTime Frequency 설정 시계열 데..
Data Frame은 다변량 데이터 분석에서 주로 사용되는 list형의 데이터 구조다. 1. Data Frame 생성 col1 % filter(age == 50 & (period > 150 | term > 2)) data에서 age가 50이면서 period가 150보다 크거나 term이 2보다 큰 것만 추출한 것이다. 3) arrange() : 정렬 data %>% arrange(disease) data %>% arrange(desc(disease)) 정렬할 기준 변수에 따라 오른차순, 내림차순으로 정렬할 수 있다. 4) mutate() : 파생변수 추가 data %>% mutate(churn_mutate = ifelse(data$activity % head(data..
(카테고리는 Kaggle이지만, 데이터를 분석하는 과정을 실습하는 과정이므로, 해당 카테고리에 포스팅하게 되었다.) 데이터 다운로드 주소는 https://archive.ics.uci.edu/ml/datasets/Human+Activity+Recognition+Using+Smartphones UCI Machine Learning Repository: Human Activity Recognition Using Smartphones Data Set Human Activity Recognition Using Smartphones Data Set Download: Data Folder, Data Set Description Abstract: Human Activity Recognition database buil..
최근댓글