특이도 차이(SD) - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

특이도 차이(SD)

특이도 차이(SD)는 유리한 패싯 a와 불리한 패싯 d 사이에 존재하는 특이도의 차이를 말합니다. 특이도는 모델이 부정적인 결과를 정확히 예측해내는 빈도(y'=0)를 측정합니다. 이러한 특이도에서의 차이는 편향의 잠재적 형태입니다.

어떤 패싯에 대해 y=0 사례를 모두 정확하게 예측했다면 해당 패싯에서의 특이도는 완벽합니다. 모델이 제1종 오류로 알려진 거짓 긍정을 최소화한다면 특이도는 더욱 올라가게 됩니다. 예를 들어, 패싯 a에 대한 대출에서의 낮은 특이도와 패싯 d에 대한 대출에서의 높은 특이도 간에 나타나는 차이는 패싯 d에 대한 편향의 측정값에 해당합니다.

다음은 패싯 a와 패싯 d에서의 특이도 차이를 구하는 공식입니다.

        SD = TNd/(TNd + FPd) - TNa/(TNa + FPa) = TNRd - TNRa

SD를 계산하는 데 사용되는 다음 변수는 다음과 같이 정의됩니다.

  • TNd은 패싯 d에 대해 예측된 참 부정입니다.

  • FPd는 패싯 d에 대해 예측된 거짓 긍정입니다.

  • TNd은 패싯 a에 대해 예측된 참 부정입니다.

  • FPd는 패싯 a에 대해 예측된 거짓 긍정입니다.

  • TNRa = TNa/(TNa + FPa)는 패싯 a에 대한 참 부정률 또는 특이도라고 합니다.

  • TNRd = TNd/(TNd + FPd)는 패싯 d에 대한 참 부정률 또는 특이도라고 합니다.

예를 들어, 패싯 a 및 패싯 d에 대한 다음과 같은 혼동 행렬을 살펴봅시다.

유리한 패싯 a에 대한 혼동 행렬
클래스 a 예측 실제 결과 0 실제 결과 1 합계
0 20 5 25
1 10 65 75
합계 30 70 100
불리한 패싯 d에 대한 혼동 행렬
클래스 d 예측 실제 결과 0 실제 결과 1 합계
0 18 7 25
1 5 20 25
합계 23 27 50

특이도 차이의 값은 SD = 18/(18+5) - 20/(20+10) = 0.7826 - 0.6667 = 0.1159이며, 이는 패싯 d에 대한 편향을 나타냅니다.

바이너리 분류와 멀티카테고리 분류에 대한 패싯 a와 패싯 d 간의 특이도 차이 값의 범위는 [-1, +1]입니다. 연속형 레이블인 경우에는 이 지표를 사용할 수 없습니다. 서로 다른 SD 값이 의미하는 바는 다음과 같습니다.

  • 양수 값은 패싯 d에서의 특이도가 패싯 a에서보다 높을 때 얻어집니다. 이는 해당 모델에서 패싯 d에 대한 거짓 긍정이 패싯 a에 대한 경우보다 적다는 것을 시사합니다. 양수 값은 패싯 d에 대한 편향을 나타냅니다.

  • 값이 0에 가까우면 비교 대상인 여러 패싯의 특이도가 비슷하다는 것을 나타냅니다. 이는 모델이 이러한 패싯 모두에서 비슷한 수의 거짓 긍정을 생성하고 있고 편향되지 않았음을 시사합니다.

  • 음수 값은 패싯 a에서의 특이도가 패싯 d에서보다 높을 때 얻어집니다. 이는 해당 모델에서 패싯 a에 대한 거짓 긍정이 패싯 d에 대한 경우보다 많다는 것을 시사합니다. 음수 값은 패싯 a에 대한 편향을 나타냅니다.