데이터 셋 : https://www.kaggle.com/c/bike-sharing-demand/data 에서 train.csv파일을 bike_train.csv로 저장한 뒤 실습을 진행한다. 데이터 셋의 피처들을 확인하면 datatime : 날짜 season : 1 = 봄, 2 = 여름, 3 = 가을, 4 = 겨울 holiday : 1 = 주말 및 휴일, 0 = 평일 workingday: 1 = 주중, 0 = 주말 및 휴일 weather : 1 = 맑음, 약간 구름 낀 흐림, 2 = 안개, 안개 + 흐림, 3 = 가벼운 눈, 가벼운 비 + 천둥, 4 = 심한 눈/비, 천둥/번개 temp : 온도(섭씨) atem : 체감 온도(섭씨) humidity : 상대 습도 windspeed : 풍속 casual : ..
회귀 검색 결과
이번 포스팅에서는 회귀 모델을 통해서 학습하기 이전에 어떤 전처리를 거쳐야 하는지, 이름에는 회귀가 포함되어 있지만 실제로는 분류에 많이 사용되는 로지스틱 회귀, 그리고 회귀 트리에 대해서 다뤄보자. 선형 회귀 모델을 위한 전처리 선형 모델 : 피처와 타깃 값 간 선형의 관계가 있다고 가정하고, 이러한 최적의 선형 함수를 찾아내 결과 값을 예측. 피처 값과 타깃 값 모두 정규 분포인 형태를 매우 선호하며, 이 데이터 분포들이 한쪽으로 쏠리는 등 왜곡된 경우에는 예측 성능에 부정적인 영향을 미칠 가능성이 높습니다. 선형 모델의 성능을 높이는 여러가지 전처리 방법 스케일링(Standard Scaler, MinMax Scaler) 1번의 방법이 성능 향상에 큰 영향을 주지 못하는 경우, 다항 특성을 적용하여 ..
회귀 이전 포스팅에서 설명한 회귀의 형태는 y = w_0 * x_0 + .... + w_n * x_n 이었다. 이것은 점들의 관계를 직선으로 표현하는 식이다. 하지만, 모든 현상을 직선으로 표현하는 것이 최선은 아니다. 어느 경우에는 조금 더 복잡하게 하는 경우에 최적의 회귀선을 나타내는 것일수도 있다. 이런 것을 표현하기 위해 다항회귀를 사용한다. 여기에서 "독립변수"가 단항식(x_0 ... x_n)이 아닌 2차, 3차로 표현되는 것을 다항(Polynomial) 회귀라고 한다. 다항이라는 것은 x_0, x_1, x_0 * x_1, (x_0)^2, (x_1)^2 .... 이라고 생각하면 된다. "독립변수"라는 것을 강조한 이유는 다항회귀면 비선형회귀여야 하는 것이라는 것에 대한 오해를 풀기 위해서이다. ..
회귀 지도학습은 2가지 유형, 분류와 회귀로 나뉜다. 분류 - 예측값이 카테고리와 같은 이산형 값 회귀 - 예측값이 연속형 숫자 회귀는 그 중에서도 선형회귀가 가장 많이 사용된다. 선형 회귀는 직선형 회귀선을 예측값과 실제값의 차이가 가장 작게 산출되도록 가중치들을 최적화하여 찾아내는 방식을 의미한다. 단순 선형 회귀 단순 선형 회귀는 독립변수(X) 하나, 종속변수(Y)도 하나인 선형 회귀를 의미한다. 독립변수와 종속변수가 갑자기 나와서 헷갈릴 수도 있지만, 쉽게 말해 독립변수는 피처를, 종속변수는 레이블 값을 의미한다. 따라서 단순 선형 회귀는 피처가 하나인 데이터를 가장 잘 나타내는 회귀선을 찾는 기법이라고 생각하면 된다. X, Y를 좌표평면에 찍고, 그 점들을 가장 잘 표현할 수 있는 직선을 찾아내..
Linear Regression(선형 회귀)란? 머신러닝은 지도학습과 비지도학습으로 나눠지고, 지도학습은 분류와 회귀(예측)으로 나눠진다. 우리는 이 글에서 회귀의 대표적인 알고리즘인 Linear Regression을 알아보고자 한다. Q: 당신은 이 그림의 별을 보고 어떤 식으로 나눴으면 좋겠는지 말해보시오. 대부분 별 모양을 중심으로 어떠한 선을 그릴 것이다. 그게 직선일수도 원일수도 곡선일수도 있다. 하지만 여기서 설명할 Linear Regression(선형 회귀)는 말 그대로 '선형'이다. 직선 형태의 함수를 그어 예측하는 것을 말한다. 앞서도 말했듯이 별들 사이로 간단한 직선을 그어 '예측'하는 것이 선형 회귀이다. 이렇게 regression(회귀)의 가장 큰 목적은 실제 데이터를 바탕으로 모델..
최근댓글