레이블 비율의 차이(DPL)

레이블 비율의 차이(DPL)는 훈련 데이터세트에서 패싯 d에 대한 긍정적인 레이블이 있는 관찰 결과의 비율과 패싯 a의 긍정적인 레이블이 있는 관찰 결과의 비율을 서로 비교합니다. 예를 들어, 이는 금융 대출을 승인받은 중년 개인(패싯 a)과 기타 연령 그룹(패싯 d)의 비율을 비교하는 데 사용될 수 있습니다. 기계 학습 모델은 훈련 데이터상 결정을 최대한 비슷하게 모방하려고 시도합니다. 따라서 DPL이 높은 데이터세트에서 훈련된 기계 학습 모델은 향후의 예측 시 동일한 불균형을 그대로 반영할 가능성이 높습니다.

레이블 비율의 차이에 대한 공식은 다음과 같습니다.

DPL = (q_a - q_d)

위치:

q_a = n_a⁽¹⁾/n_a은 관찰된 레이블 값이 1인 패싯 a의 비율입니다. 대출 승인을 받은 중년 인구 집단의 비율을 예로 들 수 있습니다. 여기서 n_a⁽¹⁾은 패싯 a에서 긍정적인 결과를 얻은 멤버의 수를 나타내고 n_a은 패싯 a의 멤버 수를 나타냅니다.
q_d = n_d⁽¹⁾/n_d은 관찰된 레이블 값이 1인 패싯 d의 비율입니다. 대출 승인을 받은 중년 인구 집단 이외의 사람들의 비율을 예로 들 수 있습니다. 여기서 n_d⁽¹⁾은 패싯 d에서 긍정적인 결과를 얻은 멤버의 수를 나타내고 n_d은 패싯 d의 멤버 수를 나타냅니다.

DPL이 0에 충분히 가까우면 인구통계학적 평등이 달성되었다고 볼 수 있습니다.

바이너리 및 멀티카테고리 패싯 레이블의 경우 DPL 값의 범위는 (-1, 1) 간격입니다. 연속형 레이블의 경우 레이블을 이진수로 축소하도록 임계값을 설정합니다.

양수인 DPL 값은 패싯 a가 패싯 d에 비해 긍정적인 결과의 비율이 상대적으로 높다는 것을 나타냅니다.
DPL 값이 0에 가까울수록 패싯 간에 긍정적인 결과의 비율이 비교적 균등함을 나타내고, 값이 0이면 인구통계학적 평등이 완벽함을 나타냅니다.
음수인 DPL 값은 패싯 d가 패싯 a에 비해 긍정적인 결과의 비율이 상대적으로 높다는 것을 나타냅니다.

높은 정도의 DPL이 문제가 되는지 여부는 매번 상황에 따라 달라집니다. 문제가 되는 경우라면, 높은 정도의 DPL은 데이터에 근본적인 문제가 있다는 신호일 수 있습니다. 예를 들어, DPL이 높은 데이터세트는 연령 기반 인구 집단에 대한 과거의 편향이나 편견을 반영하고 있을 수 있으며, 이는 모델을 학습시키기에 바람직하지 않은 데이터입니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

클래스 불균형(CI)

쿨백-라이블러 발산(KL)