머신러닝&딥러닝

F1-score와 AUC는 왜 필요한데?

seungbeomdo 2024. 3. 16. 18:19

이전 글에서 지속
Confusion matrix란 (tistory.com)

Confusion matrix란

1. Confustion Matrix 이진 예측(분류 예측) 모델을 평가하는 대표적인 지표는 Confusion matrix이다. 주어진 데이터포인트를 양성(1) 또는 음성(0)으로 분류하는 문제에서, 데이터포인트의 실제 레이블과

seungbeomdo.tistory.com

 

4. F1-score: 최적의 양성 판단 비율을 찾기

 
레퍼런스에서는 F1-score라는 개념도 자주 나온다. F1-score는 정밀도와 재현율의 조화평균이다.
$$F1 = 2 \times \frac{Prec \times Rec}{Prec + Rec}$$
 
정밀도와 재현율 간에는 상충 관계가 존재한다. 그래서 F1-score를 사용해서 둘 다 적당히 높아야 한다는 것을 반영한다.
 
우선 정밀도와 재현율의 정의식을 다시 가져오면
$$Prec = \frac{TP}{TP + FP}$$
$$Rec = \frac{TP}{TP + FN}$$
 
만약 모델이 양성으로 판단하는 경우가 늘어나면, TP도 늘어나지만 FP도 동시에 늘어난다.
 
모델이 양성으로 판단하는 경우가 늘어나면 TP가 늘어나기 때문에 재현율은 증가할 개연성이 높다. 물론 양성 판단 개수가 늘어난다고 해서 꼭 TP가 늘어나는 것은 아니고 FP도 늘어나겠지만, 재현율이 증가할 개연성은 여전히 높다.
 
반면 정밀도에 미치는 영향은 모호하다. TP가 늘어나서 분자가 증가하지만, FP도 늘어나기 때문에 분모도 커진다. 
 
양성 판단 비율이 작을 때는, 모델이 보수적이기 때문에 거의 확실한 양성들만 양성으로 분류할 것이다. 따라서 TP가 더 많다. 그리고 양성 판단 비율이 늘어나더라도, 기존에 워낙 보수적인 기준을 가지고 있었기 때문에 기준을 다소 완화하더라도 대부분 TP들만 유입될 것이다. 즉 정밀도가 증가한다.
 
하지만 양성 판단 비율이 늘어남에 따라, 기준이 과하게 완화되어 FP가 많아진다. 그러면 정밀도가 감소한다.
 
종합하면, 양성 판단 비율이 늘어나면 재현율은 계속 증가하지만, 정밀도는 초반에는 증가하다가 나중에는 감소한다. 그래서 재현율과 정밀도 간에는 100%는 아니지만, 상충 관계가 존재한다는 것이고 모델 입장에서는 무엇이 더 좋은 지표인지가 애매하다. 따라서 F1-score로 두 가지를 모두 반영해준다.
 
아주 적절한 양성 판단 비율 하에서는 재현율도 높고, 정밀도도 극대화 지점에 있기 때문에 모델의 F1-score가 높아질 것이다.
 
 

5. AUC 비율: 좋은 모델은 FP는 거르고 TP만 모은다

 
ROC 커브란 1-특이도와 재현율의 관계를 나타내는 커브이다. 
 
1-특이도는 FPR(False Positive Rate; 가짜 양성 비율)라고도 부르는데, 특이도의 정의식을 생각하면
$$FPR = \frac{FP}{TN+FP}$$
 
모델의 양성 판단 비율을 늘리면 TP가 증가할 것이기 때문에 재현율은 증가한다고 했다. 하지만 동시에 FP도 증가한다. 그래서 마냥 양성 판단 비율을 늘리는 게 좋은 것은 아니고 F1-score가 극대화되는 지점에서 양성 판단 비율을 최적화해야 한다.
 
양성 판단 비율을 변화시킴에 따라 FPR과 재현율의 조합의 변화를 나타내는 궤적이 ROC 커브이다. 재현율은 TPR이라고도 부른다(True Positive Rate; 진짜 양성 비율)
 

 

양성 판단 기준을 완화하면 TP와 FP가 모두 증가하므로 TPR과 FPR이 증가하게 돼있다. 그런데 좋은 모델이라면, 양성 판단 기준을 완화할 때 TP만 증가하고 FP는 거의 증가하지 않을 것이다. 물론 모두 양성으로 판단해버리면 FP도 결국은 증가해버리지만, 초기에는 TP만 증가하는 게 좋은 모델이다.
 
이런 관점에서 좋은 모델이라면, FP는 작고 TP는 커야 하기 때문에, AUC가 좌상단 모서리에 가까운 모습을 가지게 된다. 

 
성능이 나쁜 모델은 45도 선에 가까운 ROC를 그리는데, 이건 모델이 양성 판단 비율을 완화할 때 TP와 FP가 같은 비율로 증가한다는 뜻이다. 즉 모델의 양성 판단 기준이랄게 딱히 없이 완전히 망가져 있다는 뜻이다.
 
좋은 모델은 초반에 양성 판단 기준을 완화할 때 TP만 받아들이므로 ROC가 빠르게 증가하고, 그 후에 양성 판단 기준이 과도하게 완화되었을 때 FP를 마지못해 받아들이게 된다. 그래서 ROC 커브의 기울기가 체감하고, 그 굴곡이 깊다.
 
이것을 지표화하면 AUC이다. 이는 ROC 커브 밑의 면적을 나타내는 지표이다. 좋은 모델이라면 ROC 커브가 좌상단 모서리에 딱 붙어있으므로, AUC가 커진다.

'머신러닝&딥러닝' 카테고리의 다른 글

Confusion matrix란  (2) 2024.03.16
Deep Learning #7 Transformer  (0) 2023.03.05
Deep Learning #6 Attention  (0) 2023.03.02
Deep Learning #5 NLP의 개요  (0) 2023.02.28
Deep Learning #4 RNN(순환신경망)  (0) 2023.02.23