모든 feature가 비슷한 범위에 있으면 gradient descent가 더 빠르게 수렴하는 데 도움이 된다. Mean normalization은 기존 값에서 평균을 빼고 표준편차로 나누어주는 것을 말한다. Polynomial Regression 여러 개 feature를 하나로 합쳐서 새로운 feature로 이용할 수 있다. 예를 들면 집의 넓이도 집값을 추정하는 데 도움이 되기 때문에 집의 넓이를 가로 길이와 세로 길이를 곱해 새롭게 정의할 수 있다. Hypothesis function이 반드시 linear가 되어야 하는 것은 아니다. 데이터에 잘 fit하는 형태로 나타내면 되고, 예를 들면 2ㅏ함수나 3차함수 곡선, 제곱근 함수 등의 형태를 이용할 수 있다.
feature scaling 검색 결과
해당 글 2건
Feature Scaling이란?
기계학습/Machine Learning
2021. 7. 23. 00:02
[Hands-on Machine Learning] 파이프라인(pipeline), 특성 스케일링(feature scaling), fit, transform, fit_transform() 메서드의 차이 - housing data
데이터 변환기, Pipeline 만들기 계층적 샘플링 (Stratified Sampling) 데이터 셋이 충분히 크다면 일반 훈련 데이터 셋을 무작위로 샘플링 하여도 큰 문제가 발생하지 않는다. 하지만 그렇지 않으면 데이터 편향이 생길 가능성이 크다. 예를들어 여론 설문조사 기관 dsbook.tistory.com 계층적 샘플링에서 다루었던 housing 데이터들을 가지고 예를 들어보자. 현재 이 데이터들은 StratifiedShuffleSplit 객체에 의해 훈련 세트와 테스트 세트로 나뉘어진 상태이며, 훈련 세트는 다시 housing으로 초기화하였고, 훈련 세트의 레이블은 housing_label로 초기화하였다. 이 데이터들을 전처리하기 위한 파이프라인을 만들어보자. housing = strat_tra..
기계학습/Machine Learning
2020. 7. 10. 09:52
최근댓글