예측된 레이블의 양수 비율 차이(DPPL) - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

예측된 레이블의 양수 비율 차이(DPPL)

예측된 레이블의 양수 비율 차이(DPPL) 지표는 모델이 각 패싯마다 결과를 다르게 예측하고 있는지 여부를 결정합니다. 이는 패싯 a에 대한 긍정적인 예측의 비율(y' = 1)과 패싯 d에 대한 긍정적인 예측의 비율(y' = 1) 간의 차이로서 정의됩니다. 예를 들어, 만약 모델 예측이 중년층의 60%(패싯 a)와 다른 연령대의 50%(패싯 d)에게 대출을 제공하고 있다면, 이는 패싯 d에 대해 편향된 것일 수 있습니다. 이 예제에서는 이 10%의 차이가 편향 여부의 판단에 있어 중요한지 여부를 확인해야 합니다.

훈련 전 편향의 척도인 DPL (Properation of Labels) 과 훈련 후 편향을 측정하는 DPPL을 비교하여 데이터세트에 처음에 존재했던 양의 비율의 편향이 훈련 후에 변화하는지 여부를 평가합니다. DPPL이 DPL보다 크면 훈련 후 양수 비율의 편향이 증가한 것입니다. DPPL이 DPL보다 작은 경우 모델은 훈련 후 양의 비율로 치우침을 증가시키지 않았습니다. DPL과 DPPL을 비교한다고 해서 모형이 모든 차원에서 치우침을 줄인다는 보장은 없습니다. 예를 들어, 또는 같은 다른 지표를 고려할 때 모델에 여전히 편향이 있을 수 있습니다. 반사실적 플립테스트(FT) 정확도 차이(AD) 편향 감지에 대한 자세한 내용은 Amazon SageMaker Clarify가 편향 감지에 어떻게 도움이 되는지 알아보는 블로그 게시물을 참조하십시오. 레이블 비율의 차이(DPL)DPL에 대한 자세한 내용은 을 참조하십시오.

DPPL 공식은 다음과 같습니다.

        DPPL = q'a - q'd

위치:

  • q'a = n'a(1)/na은 값 1의 긍정적인 결과를 얻는 패싯 a의 예측된 비율입니다. 이 예제에서는 대출이 승인될 것으로 예측되는 중년층 패싯의 비율에 해당합니다. 여기서 n’a(1)은 패싯 a에서 값 1의 긍정적인 예측 결과를 얻은 멤버의 수를 나타내고 na은 패싯 a의 멤버 수를 나타냅니다.

  • q'd = n'd(1)/nd은 값 1의 긍정적인 결과를 얻는 패싯 d의 예측된 비율입니다. 이 예제에서는 대출을 받을 것으로 예측된 노년층과 청년층의 패싯에 해당합니다. 여기서 n’d(1)은 패싯 d에서 긍정적인 예측 결과를 얻은 멤버의 수를 나타내고 nd은 패싯 d의 멤버 수를 나타냅니다.

만약 DPPL이 0에 충분히 근접했다면, 이는 훈련 후 인구통계학적 평등이 달성되었음을 의미합니다.

바이너리 및 멀티카테고리 패싯 레이블의 경우 정규화된 DPL 값의 범위는 [-1, 1] 간격입니다. 연속형 레이블의 경우, 값은 해당 간격(-∞, +∞)에 따라서 달라집니다.

  • 양수인 DPPL 값은 패싯 a가 패싯 d에 비해 긍정적인 예측 결과의 비율이 상대적으로 높다는 것을 나타냅니다.

    이를 긍정 편향이라고 합니다.

  • DPPL 값이 0에 근접했다면 패싯 a와 패싯 d 간에 긍정적인 예측 결과의 비율이 비교적 균등함을 나타내고, 값이 0이면 인구통계학적 평등이 완벽함을 나타냅니다.

  • 음수인 DPPL 값은 패싯 d가 패싯 a에 비해 긍정적인 예측 결과의 비율이 상대적으로 높다는 것을 나타냅니다. 이를 부정 편향이라고 합니다.