이전 포스팅에서 정밀도와 재현율에 대해서 알아보았다. 
또한, 각 경우마다 재현율이나, 정밀도의 상대적 중요성이 다르다는 것 또한 알 수 있었다. 



하지만, 정밀도와 재현율만으로 완벽하게 머신러닝 분류 알고리즘을 평가할 수 있을까?



이전 포스팅의 마지막 부분에서 다루었듯이, 정밀도 혹은 재현율 중 하나를 극단적으로 증가시키는 경우, 정밀도-재현율 트레이드오프로 인해 다른 하나의 수치가 급격하게 감소하게 된다. 

따라서, 이들 중 하나만 가지고 성능을 측정하는 것은 성능의 전체를 대변할 수 없다. 


이런 문제점을 해결하기 위해서 나온 개념이 F1 Score이다. 



 

 


F1 Score



F1 Score는 정밀도와 재현율을 결합한 지표이다. 
이 지표는 정밀도와 재현율이 어느 한쪽으로 치우치지 않을 떄 상대적으로 높은 값을 가질 수 있다. 







ROC곡선 AUC Score


일단 AUC Score가 ROC곡선에 기반하고 있기 때문에, ROC 곡선에 대해서 먼저 이해를 해야 한다. 


ROC는 Receiver Operation Characteristic의 줄임말로, ROC곡선을 우리말로 수신자 판단 곡선으로 불린다. 



ROC곡선은 FPR(False Positive Rate)이 변할 때(X축),
TPR(True Positive Rate) 이 어떻게 변하는지(Y축)를 나타내는 곡선이다. 




TPR는 재현율을 나타낸다. 재현율은 이전에 배웠던 내용을 다시 복기하면, 실제 Positive인 값들 중 모델이 Positive라고 예측한 값의 비율을 의미한다. 또한, ROC곡선에서는 재현율을 민감도라고 부르기도 한다. 




이 민감도에 대응하는 지표로는 TNR(True Negative Rate)인 특이성(Specificity)이 있다. 
이것은 재현율의 의미와 대응되게 실제 Negative값 중 모델이 Negative라고 예측한 값들의 비율을 의미한다. 


TNR = TN / (FP + TN)

FPR(False Positive Rate)는 실제 Negative값 중 모델이 Positive라고 예측한 값들의 비율을 의미한다. 
수식으로 나타내면 FPR = FP / (FP + TN)이다. FPR과 TNR의 수식을 보면 두 식을 합하면 항상 값이 1이 되는 것을 볼 수 있다. 


FPR = 1 - TNR = 1 - 특이성

 

 



지금까지 ROC곡선의 X축과 Y축에 들어가는 값인 TPR과 FPR의 값이 어떤 의미를 갖고 있는지에 대해서 알아보았다. 


ROC곡선은 FPR값을 0~1까지 변경하면서 TPR의 변화 값을 측정한다. 이렇게 FPR의 값을 설정할 수 있는 것은 
임계값(Threshold)을 조정함으로써 가능하다. 

임계값을 1로 지정하게 되면 모델이 Positive라고 판단하는 기준이 가장 높은 수치이기 때문에, 틀린 Positive값이 나오지 않아, FPR이 0이 된다.(단, Positive인 많은 값들을 Negative라고 판단할 것이다.)
반대로 임계값을 0으로 지정하게 되면 FPR이 1이 된다. 

 


이렇게 ROC곡선은 대부분 아래의 그림과 같은 그래프를 가지게 된다. 

 

사진 출처 : https://newsight.tistory.com/53#:~:text=-%20ROC%20%EC%BB%A4%EB%B8%8C%EB%8A%94%20%EA%B7%B8%20%EB%A9%B4%EC%A0%81%EC%9D%B4%201%EC%97%90%20%EA%B0%80%EA%B9%8C%EC%9A%B8%EC%88%98%EB%A1%9D%20(%EC%A6%89%20%EC%99%BC%EC%AA%BD%EC%9C%84%20%EA%BC%AD%EC%A7%80%EC%A0%90%EC%97%90

 

ROC curve, ROC_AUC, PR_AUC, 민감도, 특이도

ROC curve (Receiver Operating Characteristic curve) : FPR과 TPR을 각각 x,y축으로 놓은 그래프. ROC curve는 X,Y가 둘다 [0,1]의 범위이고, (0,0) 에서 (1,1)을 잇는 곡선이다. - ROC 커브는 그 면적이 1에..

newsight.tistory.com

 

ROC 곡선이 가운데 점선(y=x)에 가까울 수록 성능이 떨어지는 것이며, 
멀어질수록 성능이 뛰어난 것이다. 


AUC Score는 ROC 곡선을 통해서 얻을 수 있는 값이다. 

ROC 곡선이 가지고 있는 면적을 통해서 해당 모델의 성능을 수치로 나타낸다. 


ROC곡선은 x축과 y축 모두 0~1사이의 값을 가지기 때문에, 길이가 1인 정사각형으로 나타낸다. 
따라서 AUC Score는 1에 가까울수록 좋은 모델임을 나타낸다. 

728x90
반응형
  • 네이버 블러그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 라이프코리아트위터 공유하기
  • shared
  • 카카오스토리 공유하기