이번에는 Pycaret을 통해서 Training을 진행한 모델들의 Feature Importance를 구하는 과정에 대해서 포스팅을 해볼 예정이다. Feature Importance란 무엇인가?? Feature Importance는 기본적으로, 각 모델이 Target 값을 예측하는 과정에서 각 Feature들이 Prediction에 얼마나 큰 영향을 미쳤는지를 알려주는 지표이다. Feature Importance를 구하는 방법은 여러가지가 있는데, 가장 기본적으로 Coefficient를 구하는 방법(Linear Model & Tree Model), Permutation importance, SHAP Value가 있다. Linear Model 가장 기본적인 방법으로는 Linear Model을 생각했을 때,..
Machine Learning 검색 결과
Supervised Learning - 특정 input에 대해 정답(Label) output이 있는 데이터 셋이 주어지는 경우. Regression : continuous(연속) output을 추정하는 문제 집값 예측의 예시에서, input은 집의 넓이 output으로 집값이다. 사전에 집의 넓이와 그 집의 가격을 조사해서 그 정보를 사용하므로 supervised learning이고 output에 해당하는 집값을 연속값을 가지므로 regression 문제 종양이 악성인지 양성인지 진단하는 문제. 사전에 종양의 크기와, 진단 결과(악성/양성)정보를 이용하므로 supervised learning. output에 해당하는 진단 결과가 악성/양성으로 discrete category이므로 classfication..
※머신러닝의 목적 무엇(X)으로 무엇(Y)를 예측하고 싶다! 이때, 데이터는 주로 행렬, 배열 등의 형태로 되어있다. 머신러닝의 목적을 간단하게 수식으로 표현을 한다면 Y = F(X) 이다. X : 우리가 가지고 있는 데이터를 의미하며, 입력변수 / 독립변수 / Feature이라고 부른다. Y : 우리가 예측하고 싶은 데이터를 의미하며, 출력변수 / 종속변수 / 반응변수라고 부른다. F : X를 통해서 Y를 예측할 수 있도록 입력변수와 출력변수간 관계를 의미한다. 머신러닝은 주어진 데이터를 통해 입력변수와 출력변수 간 관계를 만드는 함수 F를 만드는 것이라고 볼 수 있다. ※머신러닝이 필요한 이유 데이터의 양이 기하급수적으로 늘어나고 있는 상황에서 모든 분야의 모집단을 전수조사한다는 것은 거의 불가능하고..
모델 선택과 평가, 교차 검증 파이프라인(pipeline), 특성 스케일링(feature scaling), fit, transform, fit_transform() 메서드의 차이 데이터 변환기, Pipeline 만들기 계층적 샘플링 (Stratified Sampling) 데이터 셋이 충분히 크다면 일반.. dsbook.tistory.com 가능성 있는 모델들을 모두 추렸다고 가정한 후, 이제 이 모델들을 세부 튜닝하기 위한 방법을 몇 가지 살펴보자. 하이퍼 파라미터 튜닝 1. GridSearchCV (그리드 탐색) 가장 단순한 방법은 만족할 만한 하이퍼 파라미터 조합을 찾을 때까지 수동으로 하이퍼 파라미터를 조정하는 것이다. 이는 매우 지루한 작업이고 또 많은 경우의 수를 탐색하기에는 시간이 부족할 수도..
파이프라인(pipeline), 특성 스케일링(feature scaling), fit, transform, fit_transform() 메서드의 차이 데이터 변환기, Pipeline 만들기 계층적 샘플링 (Stratified Sampling) 데이터 셋이 충분히 크다면 일반 훈련 데이터 셋을 무작위로 샘플링 하여도 큰 문제가 발생하지 않는다. 하지만 그렇지 않으면 데�� dsbook.tistory.com 위에서 전처리한 데이터들로 학습시켜보자. 모델 선택과 평가(교차검증) 1. LinearRegression (선형 회귀) from sklearn.linear_model import LinearRegression lin_reg = LinearRegression() #준비된 데이터와 레이블로 모델 학습 lin_..
데이터 변환기, Pipeline 만들기 계층적 샘플링 (Stratified Sampling) 데이터 셋이 충분히 크다면 일반 훈련 데이터 셋을 무작위로 샘플링 하여도 큰 문제가 발생하지 않는다. 하지만 그렇지 않으면 데이터 편향이 생길 가능성이 크다. 예를들어 여론 설문조사 기관 dsbook.tistory.com 계층적 샘플링에서 다루었던 housing 데이터들을 가지고 예를 들어보자. 현재 이 데이터들은 StratifiedShuffleSplit 객체에 의해 훈련 세트와 테스트 세트로 나뉘어진 상태이며, 훈련 세트는 다시 housing으로 초기화하였고, 훈련 세트의 레이블은 housing_label로 초기화하였다. 이 데이터들을 전처리하기 위한 파이프라인을 만들어보자. housing = strat_tra..
Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition Through a series of recent breakthroughs, deep learning has boosted the entire field of machine learning. Now, even programmers who know close to nothing about this technology can use simple, … - Selection from Hands-On Machine Learning with Scikit-Learn www.oreilly.com Machine Learning (의미와 종류) Hands-On Machine Lear..
Linear Regression(선형 회귀)란? 머신러닝은 지도학습과 비지도학습으로 나눠지고, 지도학습은 분류와 회귀(예측)으로 나눠진다. 우리는 이 글에서 회귀의 대표적인 알고리즘인 Linear Regression을 알아보고자 한다. Q: 당신은 이 그림의 별을 보고 어떤 식으로 나눴으면 좋겠는지 말해보시오. 대부분 별 모양을 중심으로 어떠한 선을 그릴 것이다. 그게 직선일수도 원일수도 곡선일수도 있다. 하지만 여기서 설명할 Linear Regression(선형 회귀)는 말 그대로 '선형'이다. 직선 형태의 함수를 그어 예측하는 것을 말한다. 앞서도 말했듯이 별들 사이로 간단한 직선을 그어 '예측'하는 것이 선형 회귀이다. 이렇게 regression(회귀)의 가장 큰 목적은 실제 데이터를 바탕으로 모델..
참고 1 패스트캠퍼스 온라인강의 머신러닝과 데이터분석 A-Z 참고 2 https://blog.naver.com/handuelly/221823696658 참고 3 https://wendys.tistory.com/169 머신 러닝(Machine Learning)은 데이터를 이용해서 컴퓨터를 학습 시키는 것으로, 구현하는 알고리즘(방법)은 3가지로 구분된다. 1 - 지도학습, 2 - 비지도학습, 3- 강화학습 1. 지도학습(supervised learning) Y = F(X)에 대하여 입력 변수(X)와 출력 변수(Y)의 관계에 대하여 모델링하는 것 데이터(x, input)에 대한 명시적 정답인 레이블(y, output)이 주어진 상태에서 컴퓨터를 학습시키는 방법 예를 들어 3x5 = 15, 6x4 =24등을 ..
최근댓글