예측된 레이블의 조건부 인구통계학적 차이(CDDPL) - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

예측된 레이블의 조건부 인구통계학적 차이(CDDPL)

예측된 레이블의 인구통계학적 차이(DDPL) 지표는 패싯 d에서 예측된 거부 레이블의 비중이 예측된 승인 레이블에 비해 더 큰지 여부를 결정합니다. 이를 통해 여러 패싯에 걸쳐 예측된 거부 비율과 예측된 승인 비율의 차이를 비교할 수 있습니다. 이 지표는 관찰된 레이블 대신 예측된 레이블을 기준으로 계산된다는 점을 제외하면 훈련 전 CDD 지표와 정확히 동일합니다. 이 지표의 범위는 (-1, +1)입니다.

패싯 d의 예측된 레이블에서의 인구통계학적 차이를 구하는 공식은 다음과 같습니다.

        DDPLd = n'd(0)/n'(0) - n'd(1)/n'(1) = PdR(y'0) - PdA(y'1)

위치:

  • n'(0) = n'a(0) + n'd(0)은 패싯 a와 패싯 d에 대해 예측된 거부 레이블의 수입니다.

  • n'(1) = n'a(1) + n'd(1)은 패싯 a와 패싯 d에 대해 예측된 승인 레이블의 수입니다.

  • PdR(y'0)은 패싯 d에서 예측된 거부 레이블(값 0)의 비율입니다.

  • PdA(y'1)은 패싯 d에서 예측된 승인 레이블(값 1)의 비율입니다.

심슨의 역설을 배제할 수 있으려면 데이터세트 상의 부분군 계층을 정의하는 속성에 대해 DDPL 조건을 부여하는 예측된 레이블의 조건부 인구통계학적 차이(CDDPL) 지표가 필요합니다. 재군집화를 적용하며 덜 유리한 패싯에 대한 명백한 인구통계학적 차이의 원인을 파악하는 것이 가능해집니다. 한때 버클리대학교 입시에서 남성이 여성보다 전반적으로 더 높은 비율로 합격했던 것이 전형적인 사례입니다. 그러나 학과별 부분군을 조사하자, 학과별로 여성이 남성보다 입학률이 더 높은 것으로 나타났습니다. 여성이 남성보다 상대적으로 경쟁률이 낮은 학과에 지원했다는 것이 이에 대한 설명이었습니다. 부분군별로 경쟁률을 살펴본 결과 실제로 경쟁률이 낮은 학과에서 여성이 남성보다 더 높은 비율로 합격했던 것으로 나타났습니다.

CDDPL 지표는 데이터세트의 속성에 의해 정의된 부분군에서 확인된 모든 차이를 평균화함으로써 단일 측정값을 제공합니다. 이 값은 각 부분군에 대한 예측된 레이블의 인구통계학적 차이의 가중 평균치(DDPLi)로서 정의되며, 여기서 각 부분군 차이에 대한 가중치는 포함하고 있는 관측치의 수에 따라 비례적으로 부여됩니다. 예측된 레이블에서의 조건부 인구통계학적 차이를 구하는 공식은 다음과 같습니다.

        CDDPL = (1/n)*ini *DDPLi

위치:

  • ini = n은 총 관측치의 수에 해당하고 ni은 각 부분군에 대한 관측치 수입니다.

  • DDPLi = n'i(0)/n(0) - n'i(1)/n(1) = PiR(y'0) - PiA(y'1)은 부분군에 대한 예측된 레이블의 인구통계학적 차이입니다.

따라서 부분군에 대한 예측된 레이브의 인구통계학적 차이(DDPLi)는 각 부분군에서 예측된 불합격 레이블의 비율과 예측된 합격 레이블의 비율 간에 나타나는 차이입니다.

바이너리, 멀티카테고리, 연속형 결과에 대한 DDPL 값의 범위는 [-1,+1]입니다.

  • +1: 패싯 a 또는 부분군에는 예측된 불합격 레이블이 없고 패싯 d 또는 부분군에는 예측된 합격자가 없는 경우.

  • 양수 값은 패싯 d 또는 부분군에서는 예측된 불합격 레이블의 비율이 예측된 합격 레이블의 비율보다 크기 때문에 예측된 레이블에 인구통계학적 차이가 존재함을 나타냅니다. 값이 높을수록 차이의 수준이 커집니다.

  • 값이 0에 가까우면 평균적으로 인구통계학적 차이가 없음을 나타냅니다.

  • 양수 값은 패싯 a 또는 부분군에서는 예측된 불합격 레이블의 비율이 예측된 합격 레이블의 비율보다 크기 때문에 예측된 레이블에 인구통계학적 차이가 존재함을 나타냅니다. 값이 낮을수록 차이의 수준이 커집니다.

  • -1: 패싯 d 또는 부분군에는 예측된 불합격 레이블이 없고 패싯 a 또는 부분군에는 예측된 합격자가 없는 경우.