k-means clustering이란? 머신러닝은 지도학습과 비지도학습으로 나눠지고, 우리는 이 글에서 비지도학습의 대표적인 알고리즘인 k-means clustering(k-means 클러스터링)을 알아보고자 한다. k-means clustering의 목적은 유사한 데이터 포인트끼리 그루핑하여 패턴을 찾아내는 것이다. 위 그림과 같이 label이 없는 데이터들이 존재하면, k-means clustring을 활용할 수 있다. 여기서 k라는 것은 군집의 개수를 말하고, 군집은 비슷한 특성을 가진 데이터끼리의 묶음을 뜻한다. k값 정한 후 군집 형성 예를 들어서 k-means clustering을 하기 위해 k 값을 3으로 지정했다고 하자. 그러면 좌측 사진처럼 임의로 데이터에 3개의 중심값을 지정된다. 그리..
데이터 사이언스 메뉴얼/Machine Learning 검색 결과
Support Vector Machine(서포트 벡터 머신)이란? 머신러닝은 지도학습과 비지도학습으로 나눠지고, 지도학습은 분류와 회귀(예측)으로 나눠진다. 우리는 이 글에서 지도학습 중 분류의 대표적인 알고리즘인 Support Vector Machine(서포트 벡터 머신)을 알아보고자 한다. 이 글에서 Support Vector Machine을 줄여서 간단히 SVM이라고 부르겠다. SVM(서포트 벡터머신)이란 한 줄로 정의 하자면 결정 경계, 즉 분류를 위한 기준 선을 정의하는 모델이다. 그래서 분류되지 않은 새로운 점이 나타나면 경계의 어느 쪽에 속하는지 확인해서 분류를 수행할 수 있게 된다. 그래서 이 결정 경계라는 걸 어떻게 정의하고 계산하는지 이해하는 게 SVM의 핵심이다. 위 그림 예시를 보면..
kNN(k-Nearest Neighbor)란? 머신러닝은 지도학습과 비지도학습으로 나눠지고, 지도학습은 분류와 회귀(예측)으로 나눠진다. 우리는 이 글에서 지도학습 중 분류의 대표적인 알고리즘인 kNN을 알아보고자 한다. 위 그래프에 빨간 동그라미는 A집단, 초록색 세모는 B집단으로 분류되어있다. 그리고 우린 가운데 별이 어느 집단에 속할 것인지 알아보고자 한다. 여기서 쓰이는 개념이 kNN(k-Nearest Neighbor), 즉 최근접 이웃 알고리즘이다. k의 개수 정하기 첫 번째 방법은 kNN중에 k의 개수를 정해줘야 한다. 여기서 k란 가장 가깝게 접하는 요소들을 몇개까지 볼 것인지 정해주는 것이다. 위에서는 k를 3개로 사용해주어서 A집단 2개, B집단 1개가 별에 대해 최근접 이웃인 것이다. ..
1. 모델링 기법 생존율 예측을 위해 6가지 모델을 학습시켜서 정확도가 가장 높은 것을 테스트에서 사용한다. 여기서 사용할 모델은 다음과 같다. 1. Logistic Regression : 독립변수의 선형 결합을 이용해서 사건의 발생 가능성의 예측을 위한 통계 기법 2. Decision Tree : 분류함수를 의사결정 규칙으로 이루어진 나무 형태로 그려서 나타내는 것으로 Flow chart 로 자주 사용되는 모델 3. Support Vector Machine : 주어진 데이터를 바탕으로 새로운 데이터가 어느 카테고리에 포함될지 판단하는 모델 4. Random Forest : 의사결정나무가 분산이 크다는 점을 고려해서 다수의 의사결정나무로 다양한 무작위성을 주어 학습하는 모델 5. k-Nearest Nei..
1. 데이터 전처리 데이터 분석을 할 때, 데이터 전처리 과정은 반드시 거쳐야 한다. 데이터 분석 과정 중 가장 많은 시간을 할애해야 하는 부분이 데이터 전처리다. 실제로 데이터 분석가는 업무 시간의 80% 정도를 데이터 수집과 전처리에 사용할 정도라고 하니 더 이상 데이터 전처리의 중요성에 관해서는 설명할 것도 없다. 데이터 전처리 방법으로는 결측값 처리, Feature Engineering, 이상값 처리 등이 있다. 여기서는 결측값 처리, Feature Engineering에 대해서만 다루도록 한다. 2. 결측값 처리 앞선 글에서와 같이 결측값이 있는 데이터를 그대로 모델링할 경우 예측과정에서 높은 정확도를 얻을 수 없다. 결측치를 처리하는 방법으로는 삭제와 대체가 있다. 삭제는 말 그대로 결측값이 ..
Logistic Regression(로지스틱 회귀)란? 머신러닝은 지도학습과 비지도학습으로 나눠지고, 지도학습은 분류와 회귀(예측)으로 나눠진다. 우리는 이 글에서 지도학습의 대표적인 알고리즘인 Logistic Regression을 알아보고자 한다. 위 사진에 시간에 따른 사망률의 그래프가 있다. 여러분은 이 그래프의 데이터들을 보고 선을 그어보라고 하면 어떻게 할 건가요?? 아마 전 블로그 포스팅을 봤다면 Linear Regression(선형 회귀)를 사용할 것입니다. 하지만 직선 그래프는 데이터들을 정확히 대표할 수 없습니다. 또한 사망률은 음수 일 수가 없습니다. 그리고 직선이기 때문에 시간이 음의 무한대와 양의 무한대로 갈수록, 사망률 또한 무한대와 -무한대로 갈 것입니다. 이렇게 회귀에서Line..
1. What is Kaggle Titanic? Kaggle은 예측 모델 및 분석 대회를 하는 플랫폼이다. 일반적인 데이터 분석을 할 경우, 문제 정의부터 데이터 준비까지 각자 해결해야 한다. 그렇지만, Kaggle과 같은 사이트에서는 이런 사항이 마련되었기에 활용만 하면 된다. Machine Learning을 처음 다룰 때는 가장 다루기 쉬운 형태인 정형 데이터를 사용하는 것이 적합하다. 정형 데이터란 관계형 데이터베이스 관리 시스템(RDBMS)의 테이블에 저장된 데이터이다. 쉽게 말해, CSV 파일로 저장된 데이터를 정형 데이터라 한다. 여기서는, "Titanic: Machine Learning from Disaster"에 대한 주제로 머신러닝을 활용해서 타이타닉 호에서 생존한 승객을 예측하려 한다...
Linear Regression(선형 회귀)란? 머신러닝은 지도학습과 비지도학습으로 나눠지고, 지도학습은 분류와 회귀(예측)으로 나눠진다. 우리는 이 글에서 회귀의 대표적인 알고리즘인 Linear Regression을 알아보고자 한다. Q: 당신은 이 그림의 별을 보고 어떤 식으로 나눴으면 좋겠는지 말해보시오. 대부분 별 모양을 중심으로 어떠한 선을 그릴 것이다. 그게 직선일수도 원일수도 곡선일수도 있다. 하지만 여기서 설명할 Linear Regression(선형 회귀)는 말 그대로 '선형'이다. 직선 형태의 함수를 그어 예측하는 것을 말한다. 앞서도 말했듯이 별들 사이로 간단한 직선을 그어 '예측'하는 것이 선형 회귀이다. 이렇게 regression(회귀)의 가장 큰 목적은 실제 데이터를 바탕으로 모델..
참고 1 패스트캠퍼스 온라인강의 머신러닝과 데이터분석 A-Z 참고 2 https://blog.naver.com/handuelly/221823696658 참고 3 https://wendys.tistory.com/169 머신 러닝(Machine Learning)은 데이터를 이용해서 컴퓨터를 학습 시키는 것으로, 구현하는 알고리즘(방법)은 3가지로 구분된다. 1 - 지도학습, 2 - 비지도학습, 3- 강화학습 1. 지도학습(supervised learning) Y = F(X)에 대하여 입력 변수(X)와 출력 변수(Y)의 관계에 대하여 모델링하는 것 데이터(x, input)에 대한 명시적 정답인 레이블(y, output)이 주어진 상태에서 컴퓨터를 학습시키는 방법 예를 들어 3x5 = 15, 6x4 =24등을 ..
최근댓글