:: The Journal of the Institute of Internet, Broadcasting and Communication ::, Vol.25 No.2 | (2025) pp.103~112
맨해튼 거리 눈금 선을 이용한 ROC 곡선 작도법
Abstract
이진분류기의 성능을 평가하는 측도로는 일반적으로 정확도로 평가한다. 그러나 정확도는 동등한 비율로 구성된 데이터집합에 적합하며, 불균형 데이터인 경우 편향된 결과를 나타낸다. 따라서 정확도 대안으로 ROC 곡선이나 P-R 곡선을 활용한다. ROC 곡선은 소수와 다수 집단이 동등한 중요도인 경우, P-R 곡선은 소수집단이 보다 중요도를 갖는 경우에 활용된다. ROC 곡선은 n개 데이터 각각에 대해 혼돈행렬의 TP, FP, FN, TN을 집계하여 (FPR, TPR) 좌표 값을 연결한 곡선을 작도한다. 또한 n개 데이터 중에서 max(TPR-FPR)을 최적의 절단 치로 결정한다. 본 논문에서는 ROC 곡선을 작도하는데 있어 사전에 실제 정답(T)=P인 개수를 np 로, T=N인 개수를 nN으로 하여 FPR(X축)=1/nN개 눈금으로, TPR(Y축)=1/np개 눈금으로 분할한 눈금 선을 가진 그래프를 적용한다. 이 그래프에서 T=P이면 위로, T=N이 면 우측으로 한 눈금씩 이동하는 방법을 적용하였다. 제안된 방법은 기존의 (FPR, TPR) 좌표 계산법과 동일한 결과를 보였으며, 최적의 절단치도 쉽게 결정할 수 있음을 보였다.
As a measure of evaluating the performance of binary classifiers, it is generally evaluated by accuracy. However, the accuracy is appropriate for a dataset composed of equal proportions, with biased results for imbalanced data. Therefore, ROC curves or PR curves are used as accuracy alternatives. The ROC curve is used when minority and majority groups are of equal importance, and the PR curve is used when minority groups are of more importance. The ROC curve aggregates TP, FP, FN, and TN of the confusion matrix for each of the n data to construct a ROC curve that connects (FPR, TPR) coordinate values. In addition, max (TPR-FPR) is determined as the optimal cut-off value among n data. In constructing the ROC curve, this paper applies a graph with a scale mark divided by FPR(X-axis) = 1/nN scales, and TPR (Y-axis) = 1/np scales, with the number of actual correct answers (T) = P as np and T=N as nN. In this graph, a method of moving one scale upward if T=P and to the right if T=N was applied. The proposed method showed the same results as the conventional (FPR, TPR) coordinate calculation method, and it was shown that the optimal cut-off value can be easily determined.
Receiver operating characteristic(ROC),False positive rate(FPR),True positive rate(TPR),Manhattan distance scale mark(MDSM),Optimal cut-off value