기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
모델 평가를 위한 지표
모델을 훈련한 후 Amazon Rekognition Custom Labels는 모델 테스트에서 지표를 반환하며, 이를 사용하여 모델의 성능을 평가할 수 있습니다. 이 주제는 사용할 수 있는 지표와 훈련된 모델이 제대로 작동하고 있는지 이해하는 방법을 설명합니다.
Amazon Rekognition Custom Labels 콘솔은 다음 지표를 훈련 결과의 요약과 각 레이블의 지표로 제공합니다.
제공하는 각 지표는 기계 학습 모델의 성능을 평가하는 데 일반적으로 사용되는 지표입니다. Amazon Rekognition Custom Labels는 전체 테스트 데이터 세트에 대한 테스트 결과에 대한 지표를 각 사용자 지정 레이블에 대한 지표와 함께 반환합니다. 또한 테스트 데이터 세트의 각 이미지에 대해 훈련된 사용자 지정 모델의 성능을 검토할 수 있습니다. 자세한 내용은 평가 지표 액세스(콘솔) 섹션을 참조하세요.
모델 성능 평가
테스트 중에 Amazon Rekognition Custom Labels는 테스트 이미지에 사용자 지정 레이블이 포함되어 있는지 예측합니다. 신뢰도 점수는 모델 예측의 확실성을 정량화하는 값입니다.
사용자 지정 레이블의 신뢰도 점수가 임계값을 초과하는 경우 모델 출력에 이 레이블이 포함됩니다. 예측은 다음과 같은 방법으로 분류할 수 있습니다.
-
참 긍정: Amazon Rekognition Custom Labels 모델이 테스트 이미지에 사용자 지정 레이블이 있는지 정확하게 예측했습니다. 즉, 예측 레이블은 해당 이미지에 대한 “실측 정보” 레이블이기도 합니다. 예를 들어 Amazon Rekognition Custom Labels가 이미지에 축구공이 있을 때 축구공 레이블을 올바르게 반환한 경우입니다.
-
거짓 긍정: Amazon Rekognition Custom Labels 모델이 테스트 이미지에 사용자 지정 레이블이 있는지 잘못 예측했습니다. 즉, 예측 레이블은 이미지에 대한 실측 정보 레이블이 아닙니다. 예를 들어 Amazon Rekognition Custom Labels는 축구공 레이블을 반환했지만 해당 이미지에 대한 실측 정보에는 축구공 레이블이 없는 경우입니다.
-
거짓 부정: Amazon Rekognition Custom Labels 모델이 이미지에 사용자 지정 레이블이 존재할 것으로 예측하지 않았지만 해당 이미지에 대한 “실측 정보”에는 이 레이블이 들어 있었습니다. 예를 들어 Amazon Rekognition Custom Labels가 축구공이 들어 있는 이미지에 대해 '축구공' 사용자 지정 레이블을 반환하지 않은 경우입니다.
-
참 부정: Amazon Rekognition Custom Labels 모델이 테스트 이미지에 사용자 지정 레이블이 없을 것이라고 정확하게 예측했습니다. 예를 들어 Amazon Rekognition Custom Labels가 축구공이 없는 이미지에 대해 '축구공' 사용자 지정 레이블을 반환하지 않은 경우입니다.
콘솔에서는 테스트 데이터 세트의 각 이미지에 대한 참 긍정, 거짓 긍정 및 거짓 부정 값에 액세스할 수 있습니다. 자세한 내용은 평가 지표 액세스(콘솔) 섹션을 참조하세요.
이러한 예측 결과는 각 레이블에 대한 다음 지표를 계산하고 전체 테스트 세트에 대한 집계를 계산하는 데 사용됩니다. 모든 지표가 각 테스트 이미지의 각 경계 상자(예측 또는 실측 정보)에 대해 계산된다는 점을 제외하면 경계 상자 수준에서 모델이 수행한 예측에도 동일한 정의가 적용됩니다.
교차 결합(IoU) 및 객체 감지
교차 결합(IoU)은 두 객체의 경계 상자가 합쳐진 영역에서 겹치는 비율을 측정합니다. 범위는 0(가장 조금 겹침)에서 1(완전히 겹침)까지입니다. 테스트 중에 실측 정보 경계 상자와 예측 경계 상자의 IoU가 0.5 이상이면 예측 경계 상자가 정확한 것으로 판정됩니다.
추정 임계값
Amazon Rekognition Custom Labels는 각 사용자 지정 레이블에 대해 추정 임계값(0~1)을 자동으로 계산합니다. 사용자 지정 레이블에 대해 추정 임계값을 설정할 수 없습니다. 각 레이블의 추정 임계값은 예측을 참 긍정 또는 거짓 긍정으로 계산하는 위의 값입니다. 테스트 데이터 세트를 기반으로 설정됩니다. 추정 임계값은 모델 훈련 중에 테스트 데이터 세트에서 달성한 최고의 F1 점수를 기반으로 계산됩니다.
모델의 훈련 결과에서 레이블에 대한 추정 임계값 값을 가져올 수 있습니다. 자세한 내용은 평가 지표 액세스(콘솔) 섹션을 참조하세요.
추정 임계값의 변경은 일반적으로 모델의 정밀도와 재현율을 개선하는 데 사용됩니다. 자세한 내용은 Amazon Rekognition Custom Labels 모델 개선 섹션을 참조하세요. 사용자는 레이블에 대해 모델의 추정 임계값을 설정할 수 없으므로 이미지를 DetectCustomLabels
로 분석하고 MinConfidence
입력 파라미터를 지정하여 동일한 결과를 얻을 수 있습니다. 자세한 내용은 훈련된 모델을 사용한 이미지 분석 섹션을 참조하세요.
정밀도
Amazon Rekognition Custom Labels는 각 레이블에 대한 정밀도 지표와 전체 테스트 데이터 세트에 대한 평균 정밀도 지표를 제공합니다.
정밀도는 특정 레이블의 추정 임계값에서 모든 모델 예측(참 긍정 및 거짓 긍정)에 대한 올바른 예측(참 긍정)의 비율입니다. 임계값이 증가하면 모델의 예측 수가 줄어들 수 있습니다. 그러나 일반적으로 낮은 임계값에 비해 참 긍정 비율과 거짓 긍정 비율이 더 높을 것입니다. 가능한 정밀도 값의 범위는 0~1이며, 값이 높을수록 정밀도가 높습니다.
예를 들어, 모델 영상에 축구공이 있다고 예측한 경우에서 예측이 정확했을 때가 얼마나 많았는지 따져 봅시다. 축구공 8개와 바위 5개가 있는 이미지가 있다고 가정해 보겠습니다. 모델이 축구공 9개(정확히 예측된 8개와 거짓 긍정 1개)를 예측한 경우 이 예제의 정밀도는 0.89입니다. 그러나 모델이 이미지에서 축구공 13개를 예측한 경우 결과는 올바른 예측 8개와 틀린 예측 5개가 되므로 정밀도는 낮아집니다.
자세한 내용은 정밀도 및 재현율
재현율
Amazon Rekognition Custom Labels는 각 레이블의 평균 재현율 지표와 전체 테스트 데이터 세트에 대한 평균 재현율 지표를 제공합니다.
재현율은 테스트 세트 레이블 중에서 추정 임계값을 초과할 것으로 정확하게 예측된 결과의 비율입니다. 사용자 지정 레이블이 테스트 세트의 이미지에 실제로 존재할 때 모델이 얼마나 자주 사용자 지정 레이블을 정확하게 예측할 수 있는지를 나타내는 척도입니다. 재현율 범위는 0~1입니다. 값이 높을수록 재현율이 높음을 나타냅니다.
예를 들어 이미지에 축구공 8개가 있을 때 그중 몇 개가 정확히 감지되었는지 따져 봅시다. 이미지에 축구공 8개와 바위 5개가 있는 이 예제에서 모델이 축구공 5개를 감지하면 재현율 값은 0.62입니다. 재훈련 후 새 모델이 이미지에 있는 8개를 모두 포함하여 축구공 9개를 감지한 경우 재현율 값은 1.0입니다.
자세한 내용은 정밀도 및 재현율
F1
Amazon Rekognition Custom Labels는 F1 점수 지표를 사용하여 각 레이블의 평균 모델 성능과 전체 테스트 데이터 세트의 평균 모델 성능을 측정합니다.
모델 성능은 모든 레이블의 정밀도와 재현율을 모두 고려한 종합 지표입니다(예: F1 점수 또는 평균 정밀도). 모델 성능 점수는 0에서 1 사이의 값입니다. 값이 높을수록 재현율과 정밀도 양면에서 모델의 성능이 좋습니다. 구체적으로, 분류 작업을 위한 모델 성능은 일반적으로 F1 점수로 측정됩니다. 이 점수는 추정 임계값에서의 정밀도 및 재현율 점수의 조화 평균입니다. 예를 들어 정밀도가 0.9이고 재현율이 1.0인 모델의 경우 F1 점수는 0.947입니다.
F1 점수 값이 높으면 모델이 정밀도와 재현율 모두에서 우수한 성능을 보이고 있음을 나타냅니다. 예를 들어 정밀도가 0.30이고 재현율이 1.0인 경우와 같이 모델의 성능이 좋지 않은 경우 F1 점수는 0.46입니다. 마찬가지로 정밀도가 높고(0.95) 재현율이 낮으면(0.20) F1 점수는 0.33입니다. 두 경우 모두 F1 점수가 낮으며 이는 모델에 문제가 있음을 나타냅니다.
자세한 내용은 F1 점수
지표 사용
훈련한 특정 모델과 응용 분야에 따라 MinConfidence
입력 파라미터를 DetectCustomLabels
로 사용하여 정밀도와 재현율 사이에서 균형을 맞출 수 있습니다. MinConfidence
값이 높을수록 일반적으로 정밀도는 높아지지만(축구공의 예측치가 더 정확함) 재현율은 낮아집니다(실제 축구공을 놓치는 경우가 많음). MinConfidence
값이 낮을수록 재현율은 높아지지만(정확하게 예측된 실제 축구공이 더 많음) 정밀도는 낮아집니다(이러한 예측이 틀리는 경우가 많음). 자세한 내용은 훈련된 모델을 사용한 이미지 분석 섹션을 참조하세요.
지표는 필요한 경우 모델 성능을 개선하기 위해 취할 수 있는 조치도 알려줍니다. 자세한 내용은 Amazon Rekognition Custom Labels 모델 개선 섹션을 참조하세요.
참고
DetectCustomLabels
는 지표 범위인 0~1에 해당하는 0에서 100 사이의 예측값을 반환합니다.