레이블 비율의 차이(DPL) - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

레이블 비율의 차이(DPL)

레이블 비율의 차이(DPL)는 훈련 데이터 세트에서 패싯 d에 대한 긍정적인 레이블이 있는 관찰 결과의 비율과 패싯 a의 긍정적인 레이블이 있는 관찰 결과의 비율을 서로 비교합니다. 예를 들어, 이는 금융 대출을 승인받은 중년 개인(패싯 a)과 기타 연령 그룹(패싯 d)의 비율을 비교하는 데 사용될 수 있습니다. 기계 학습 모델은 훈련 데이터상 결정을 최대한 비슷하게 모방하려고 시도합니다. 따라서 DPL이 높은 데이터 세트에서 훈련된 기계 학습 모델은 향후의 예측 시 동일한 불균형을 그대로 반영할 가능성이 높습니다.

레이블 비율의 차이에 대한 공식은 다음과 같습니다.

        DPL = (qa - qd)

위치:

  • qa = na(1)/na은 관찰된 레이블 값이 1인 패싯 a의 비율입니다. 대출 승인을 받은 중년 인구 집단의 비율을 예로 들 수 있습니다. 여기서 na(1)은 패싯 a에서 긍정적인 결과를 얻은 멤버의 수를 나타내고 na은 패싯 a의 멤버 수를 나타냅니다.

  • qd = nd(1)/nd은 관찰된 레이블 값이 1인 패싯 d의 비율입니다. 대출 승인을 받은 중년 인구 집단 이외의 사람들의 비율을 예로 들 수 있습니다. 여기서 nd(1)은 패싯 d에서 긍정적인 결과를 얻은 멤버의 수를 나타내고 nd은 패싯 d의 멤버 수를 나타냅니다.

DPL이 0에 충분히 가까우면 인구통계학적 평등이 달성되었다고 볼 수 있습니다.

바이너리 및 멀티카테고리 패싯 레이블의 경우 DPL 값의 범위는 (-1, 1) 간격입니다. 연속형 레이블의 경우 레이블을 이진수로 축소하도록 임계값을 설정합니다.

  • 양수인 DPL 값은 패싯 a가 패싯 d에 비해 긍정적인 결과의 비율이 상대적으로 높다는 것을 나타냅니다.

  • DPL 값이 0에 가까울수록 패싯 간에 긍정적인 결과의 비율이 비교적 균등함을 나타내고, 값이 0이면 인구통계학적 평등이 완벽함을 나타냅니다.

  • 음수인 DPL 값은 패싯 d가 패싯 a에 비해 긍정적인 결과의 비율이 상대적으로 높다는 것을 나타냅니다.

높은 정도의 DPL이 문제가 되는지 여부는 매번 상황에 따라 달라집니다. 문제가 되는 경우라면, 높은 정도의 DPL은 데이터에 근본적인 문제가 있다는 신호일 수 있습니다. 예를 들어, DPL이 높은 데이터 세트는 연령 기반 인구 집단에 대한 과거의 편향이나 편견을 반영하고 있을 수 있으며, 이는 모델을 학습시키기에 바람직하지 않은 데이터입니다.