k-means clustering이란? 머신러닝은 지도학습과 비지도학습으로 나눠지고, 우리는 이 글에서 비지도학습의 대표적인 알고리즘인 k-means clustering(k-means 클러스터링)을 알아보고자 한다. k-means clustering의 목적은 유사한 데이터 포인트끼리 그루핑하여 패턴을 찾아내는 것이다. 위 그림과 같이 label이 없는 데이터들이 존재하면, k-means clustring을 활용할 수 있다. 여기서 k라는 것은 군집의 개수를 말하고, 군집은 비슷한 특성을 가진 데이터끼리의 묶음을 뜻한다. k값 정한 후 군집 형성 예를 들어서 k-means clustering을 하기 위해 k 값을 3으로 지정했다고 하자. 그러면 좌측 사진처럼 임의로 데이터에 3개의 중심값을 지정된다. 그리..
머신러닝 알고리즘 검색 결과
Support Vector Machine(서포트 벡터 머신)이란? 머신러닝은 지도학습과 비지도학습으로 나눠지고, 지도학습은 분류와 회귀(예측)으로 나눠진다. 우리는 이 글에서 지도학습 중 분류의 대표적인 알고리즘인 Support Vector Machine(서포트 벡터 머신)을 알아보고자 한다. 이 글에서 Support Vector Machine을 줄여서 간단히 SVM이라고 부르겠다. SVM(서포트 벡터머신)이란 한 줄로 정의 하자면 결정 경계, 즉 분류를 위한 기준 선을 정의하는 모델이다. 그래서 분류되지 않은 새로운 점이 나타나면 경계의 어느 쪽에 속하는지 확인해서 분류를 수행할 수 있게 된다. 그래서 이 결정 경계라는 걸 어떻게 정의하고 계산하는지 이해하는 게 SVM의 핵심이다. 위 그림 예시를 보면..
kNN(k-Nearest Neighbor)란? 머신러닝은 지도학습과 비지도학습으로 나눠지고, 지도학습은 분류와 회귀(예측)으로 나눠진다. 우리는 이 글에서 지도학습 중 분류의 대표적인 알고리즘인 kNN을 알아보고자 한다. 위 그래프에 빨간 동그라미는 A집단, 초록색 세모는 B집단으로 분류되어있다. 그리고 우린 가운데 별이 어느 집단에 속할 것인지 알아보고자 한다. 여기서 쓰이는 개념이 kNN(k-Nearest Neighbor), 즉 최근접 이웃 알고리즘이다. k의 개수 정하기 첫 번째 방법은 kNN중에 k의 개수를 정해줘야 한다. 여기서 k란 가장 가깝게 접하는 요소들을 몇개까지 볼 것인지 정해주는 것이다. 위에서는 k를 3개로 사용해주어서 A집단 2개, B집단 1개가 별에 대해 최근접 이웃인 것이다. ..
Logistic Regression(로지스틱 회귀)란? 머신러닝은 지도학습과 비지도학습으로 나눠지고, 지도학습은 분류와 회귀(예측)으로 나눠진다. 우리는 이 글에서 지도학습의 대표적인 알고리즘인 Logistic Regression을 알아보고자 한다. 위 사진에 시간에 따른 사망률의 그래프가 있다. 여러분은 이 그래프의 데이터들을 보고 선을 그어보라고 하면 어떻게 할 건가요?? 아마 전 블로그 포스팅을 봤다면 Linear Regression(선형 회귀)를 사용할 것입니다. 하지만 직선 그래프는 데이터들을 정확히 대표할 수 없습니다. 또한 사망률은 음수 일 수가 없습니다. 그리고 직선이기 때문에 시간이 음의 무한대와 양의 무한대로 갈수록, 사망률 또한 무한대와 -무한대로 갈 것입니다. 이렇게 회귀에서Line..
선형회귀란? 가장 간단 + 딥러닝의 기초가 되는 머신러닝 알고리즘으로, 데이터들을 가장 잘 표현하는 1차 함수식을 만드는 것이다. (이번 포스팅에서는 기초적인 내용의 이해를 위해 "특성이 1개"인 모델에 대해 이야기 한다.) 일반적으로 우리가 아는 1차 함수식은 y = a*x + b의 형태 이것을 머신러닝에서 쓰는 방식으로 바꾸면 y_hat = W*x + b이다. (선형함수식이라고 표현을 한다.) x: 입력값 y: 타겟값 W: 가중치 b: 절편 1차 함수식을 y와 x에 대한 식으로 이해를 하듯이 위 식을 W와 y_hat에 대한 식으로 이해를 하면 된다. ☞왜 y가 아니라 y_hat? y와 y_hat의 차이점을 설명하자면, y는 이미 우리가 가지고 있는 정답이라고 볼 수 있고, y_hat은 y를 예측하기 ..
최근댓글