모델 성능 지표 - Amazon Fraud Detector

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

모델 성능 지표

모델 교육이 완료되면 Amazon Fraud Detector는 모델 학습에 사용되지 않은 데이터의 15% 를 사용하여 모델 성능을 검증합니다. 학습된 Amazon Fraud Detector 모델은 검증 성능 지표와 유사한 실제 사기 탐지 성능을 제공할 것으로 예상할 수 있습니다.

기업에서는 더 많은 사기를 탐지하는 것과 합법적인 고객을 상대로 마찰을 가중시키는 것 사이에서 균형을 잡아야 합니다. 적절한 균형을 선택하는 데 도움이 되도록 Amazon Fraud Detector는 모델 성능을 평가하는 다음 도구를 제공합니다.

  • 점수 분포도 — 모델 점수 분포 히스토그램은 100,000개의 이벤트로 구성된 예제 모집단을 가정합니다. 왼쪽 Y축은 합법적인 이벤트를 나타내고 오른쪽 Y축은 사기 사건을 나타냅니다. 차트 영역을 클릭하여 특정 모델 임계값을 선택할 수 있습니다. 그러면 혼동행렬 및 ROC 차트의 해당 뷰가 업데이트됩니다.

  • 혼동 매트릭스 — 모델 예측과 실제 결과를 비교하여 주어진 점수 임계값에 대한 모델 정확도를 요약합니다. Amazon Fraud Detector는 예시 이벤트 모집단이 100,000개라고 가정합니다. 사기 및 합법적인 이벤트가 배포되면 기업의 사기 발생률을 시뮬레이션할 수 있습니다.

    • 진실 — 이 모델은 사기를 예측하는데, 이 모델은 실제로 사기에 해당합니다.

    • 오탐지 (False positive) — 이 모델은 사기를 예측하지만 사기는 실제로 정당합니다.

    • 진정한 단점 — 모델은 합법적인 사건을 예측하고 실제로 사건이 합법적이라고 예측합니다.

    • 거짓 네거티브 — 모델은 합법적인 사건을 예측하지만 실제로는 사기에 해당합니다.

    • 트루 포지티브 비율 (TPR) — 전체 사기 중 모델이 탐지한 비율입니다. 캡처율이라고도 합니다.

    • 거짓 양성률 (FPR) — 사기로 잘못 예측되는 총 합법적 사건의 비율입니다.

  • Receiver Operator Curve (ROC) - 가능한 모든 모델 점수 임계값에서 참양성률을 오양성률의 함수로 표시합니다. 고급 지표를 선택하면 이 차트를 볼 수 있습니다.

  • 곡선 아래 면적 (AUC) - 가능한 모든 모델 점수 임계값에 대한 TPR 및 FPR을 요약합니다. 예측력이 없는 모형의 AUC는 0.5점인 반면, 완벽한 모형의 점수는 1.0입니다.

  • 불확실성 범위 — 모델에서 기대되는 AUC 범위를 보여줍니다. 범위가 클수록 (AUC의 상한과 하한 차이 > 0.1) 모델 불확실성이 높아집니다. 불확실성 범위가 큰 경우 (>0.1), 레이블이 지정된 이벤트를 더 제공하고 모델을 다시 훈련시키는 것을 고려해 보십시오.

모델 성능 메트릭을 사용하려면
  1. 먼저 점수 분포 차트로 시작하여 사기 및 합법적인 사건에 대한 모델 점수 분포를 검토하십시오. 이상적으로는 사기 행위와 합법적인 사건을 명확하게 구분할 수 있어야 합니다. 이는 모델이 어떤 이벤트가 사기이고 어떤 이벤트가 합법적인지 정확하게 식별할 수 있음을 나타냅니다. 차트 영역을 클릭하여 모델 임계값을 선택합니다. 모델 점수 임계값 조정이 참양성률과 거짓양성률에 어떤 영향을 미치는지 확인할 수 있습니다.

    참고

    점수 분포 차트는 사기 사건과 합법적인 사건을 서로 다른 두 Y축에 표시합니다. 왼쪽 Y축은 합법적인 이벤트를 나타내고 오른쪽 Y축은 사기 사건을 나타냅니다.

  2. 혼란 매트릭스를 검토하십시오. 선택한 모델 점수 임계값에 따라 100,000개의 이벤트 샘플을 기반으로 시뮬레이션된 영향을 확인할 수 있습니다. 사기 및 합법적인 이벤트의 분포를 보면 비즈니스의 사기 발생률을 시뮬레이션할 수 있습니다. 이 정보를 사용하여 참양성률과 거짓양성률 사이의 적절한 균형을 찾아보십시오.

  3. 자세한 내용을 보려면 고급 지표를 선택하십시오. ROC 차트를 사용하여 모든 모델 점수 임계값에 대한 참양성률과 거짓양성률 간의 관계를 파악할 수 있습니다. ROC 곡선은 참양성률과 거짓양성률 간의 균형을 세밀하게 조정하는 데 도움이 될 수 있습니다.

    참고

    표를 선택하여 표 형식의 지표를 검토할 수도 있습니다.

    테이블 뷰에는 지표 정밀도도 표시됩니다. 정확도는 사기로 예측된 모든 이벤트와 비교하여 사기로 올바르게 예측된 사기 이벤트의 비율입니다.

  4. 성능 지표를 사용하여 목표 및 사기 탐지 사용 사례를 기반으로 비즈니스에 가장 적합한 모델 임계값을 결정하십시오. 예를 들어 모델을 사용하여 신규 계정 등록을 위험도가 높음, 중간 또는 낮음으로 분류하려는 경우 다음과 같이 세 가지 규칙 조건의 초안을 작성할 수 있도록 두 임계값 점수를 식별해야 합니다.

    • 점수 > X는 위험도가 높습니다.

    • 점수 < X but > Y는 중간 위험도입니다.

    • 점수가 Y 미만이면 위험도가 낮습니다.