기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
모델 성능 지표
모델 교육이 완료되면 Amazon Fraud Detector는 모델 학습에 사용되지 않은 데이터의 15% 를 사용하여 모델 성능을 검증합니다. 학습된 Amazon Fraud Detector 모델은 검증 성능 지표와 유사한 실제 사기 탐지 성능을 제공할 것으로 예상할 수 있습니다.
기업에서는 더 많은 사기를 탐지하는 것과 합법적인 고객을 상대로 마찰을 가중시키는 것 사이에서 균형을 잡아야 합니다. 적절한 균형을 선택하는 데 도움이 되도록 Amazon Fraud Detector는 모델 성능을 평가하는 다음 도구를 제공합니다.
-
점수 분포도 — 모델 점수 분포 히스토그램은 100,000개의 이벤트로 구성된 예제 모집단을 가정합니다. 왼쪽 Y축은 합법적인 이벤트를 나타내고 오른쪽 Y축은 사기 사건을 나타냅니다. 차트 영역을 클릭하여 특정 모델 임계값을 선택할 수 있습니다. 그러면 혼동행렬 및 ROC 차트의 해당 뷰가 업데이트됩니다.
-
혼동 매트릭스 — 모델 예측과 실제 결과를 비교하여 주어진 점수 임계값에 대한 모델 정확도를 요약합니다. Amazon Fraud Detector는 예시 이벤트 모집단이 100,000개라고 가정합니다. 사기 및 합법적인 이벤트가 배포되면 기업의 사기 발생률을 시뮬레이션할 수 있습니다.
진실 — 이 모델은 사기를 예측하는데, 이 모델은 실제로 사기에 해당합니다.
오탐지 (False positive) — 이 모델은 사기를 예측하지만 사기는 실제로 정당합니다.
진정한 단점 — 모델은 합법적인 사건을 예측하고 실제로 사건이 합법적이라고 예측합니다.
거짓 네거티브 — 모델은 합법적인 사건을 예측하지만 실제로는 사기에 해당합니다.
-
트루 포지티브 비율 (TPR) — 전체 사기 중 모델이 탐지한 비율입니다. 캡처율이라고도 합니다.
-
거짓 양성률 (FPR) — 사기로 잘못 예측되는 총 합법적 사건의 비율입니다.
-
Receiver Operator Curve (ROC) - 가능한 모든 모델 점수 임계값에서 참양성률을 오양성률의 함수로 표시합니다. 고급 지표를 선택하면 이 차트를 볼 수 있습니다.
-
곡선 아래 면적 (AUC) - 가능한 모든 모델 점수 임계값에 대한 TPR 및 FPR을 요약합니다. 예측력이 없는 모형의 AUC는 0.5점인 반면, 완벽한 모형의 점수는 1.0입니다.
-
불확실성 범위 — 모델에서 기대되는 AUC 범위를 보여줍니다. 범위가 클수록 (AUC의 상한과 하한 차이 > 0.1) 모델 불확실성이 높아집니다. 불확실성 범위가 큰 경우 (>0.1), 레이블이 지정된 이벤트를 더 제공하고 모델을 다시 훈련시키는 것을 고려해 보십시오.
모델 성능 메트릭을 사용하려면
-
먼저 점수 분포 차트로 시작하여 사기 및 합법적인 사건에 대한 모델 점수 분포를 검토하십시오. 이상적으로는 사기 행위와 합법적인 사건을 명확하게 구분할 수 있어야 합니다. 이는 모델이 어떤 이벤트가 사기이고 어떤 이벤트가 합법적인지 정확하게 식별할 수 있음을 나타냅니다. 차트 영역을 클릭하여 모델 임계값을 선택합니다. 모델 점수 임계값 조정이 참양성률과 거짓양성률에 어떤 영향을 미치는지 확인할 수 있습니다.
참고
점수 분포 차트는 사기 사건과 합법적인 사건을 서로 다른 두 Y축에 표시합니다. 왼쪽 Y축은 합법적인 이벤트를 나타내고 오른쪽 Y축은 사기 사건을 나타냅니다.
-
혼란 매트릭스를 검토하십시오. 선택한 모델 점수 임계값에 따라 100,000개의 이벤트 샘플을 기반으로 시뮬레이션된 영향을 확인할 수 있습니다. 사기 및 합법적인 이벤트의 분포를 보면 비즈니스의 사기 발생률을 시뮬레이션할 수 있습니다. 이 정보를 사용하여 참양성률과 거짓양성률 사이의 적절한 균형을 찾아보십시오.
-
자세한 내용을 보려면 고급 지표를 선택하십시오. ROC 차트를 사용하여 모든 모델 점수 임계값에 대한 참양성률과 거짓양성률 간의 관계를 파악할 수 있습니다. ROC 곡선은 참양성률과 거짓양성률 간의 균형을 세밀하게 조정하는 데 도움이 될 수 있습니다.
참고
표를 선택하여 표 형식의 지표를 검토할 수도 있습니다.
테이블 뷰에는 지표 정밀도도 표시됩니다. 정확도는 사기로 예측된 모든 이벤트와 비교하여 사기로 올바르게 예측된 사기 이벤트의 비율입니다.
-
성능 지표를 사용하여 목표 및 사기 탐지 사용 사례를 기반으로 비즈니스에 가장 적합한 모델 임계값을 결정하십시오. 예를 들어 모델을 사용하여 신규 계정 등록을 위험도가 높음, 중간 또는 낮음으로 분류하려는 경우 다음과 같이 세 가지 규칙 조건의 초안을 작성할 수 있도록 두 임계값 점수를 식별해야 합니다.
-
점수 > X는 위험도가 높습니다.
-
점수 < X but > Y는 중간 위험도입니다.
-
점수가 Y 미만이면 위험도가 낮습니다.
-