훈련 전 편향 지표 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

훈련 전 편향 지표

ML 모델의 편향 측정은 편향 완화를 위해 필요한 첫 번째 단계입니다. 편향에 대한 각각의 측정값은 공정성에 대한 서로 다른 개념에 해당합니다. 공정성에 대한 개념을 단순하게 고려하더라도 다양한 상황에서 서로 다른 측정값이 적용될 수 있습니다. 예를 들어, 연령대와 관련한 공정성 문제에서, 단순화를 위해 중년 및 나머지 연령대가 2개의 관련 인구 집단(이를 패싯이라고 함)이라고 가정해 보겠습니다. 대출에 관한 ML 모델이라면, 중소기업 대출이 두 인구 집단 모두에 동일한 수만큼 승인되기를 원할 수 있습니다. 또는 구직 지원자를 처리할 때 각 인구 집단에서 고용된 구성원 수가 같아야 하는 경우가 생길 수 있습니다. 그러나 이 접근법에서는 두 연령대 모두가 같은 수만큼 해당 직장에 지원할 것이라고 가정될 여지가 있으므로, 지원자 수에 조건을 적용하는 것이 좋습니다. 더 나아가, 동일한 인원 수가 지원하는지 여부가 아니라 적격 지원자의 수가 같은지 여부를 고려하는 것이 필요할 수도 있습니다. 또는 두 연령대 모두에서 적격 지원자의 합격률이 같은지 여부 또는 지원자 불합격률이 같은지 여부, 또는 둘 다를 기준으로 공정성을 고려할 수도 있습니다. 관심 속성에 대해 서로 비율이 다른 데이터가 포함된 데이터 세트를 사용하는 경우도 있을 수 있습니다. 이러한 불균형으로 인해 선택한 편향 측정값이 혼동될 가능성이 있습니다. 모델이 패싯을 분류할 때 대상마다 정확성이 다르게 나타날 가능성도 있습니다. 따라서 적용 분야와 상황에 개념적으로 적합한 편향 측정법을 선택해야 합니다.

편향 지표에 대해 설명하기 위해 다음 표기법을 사용합니다. 여기서 설명하는 개념적 모델은 바이너리 분류를 위한 것으로, 이 모델에서는 해당 샘플 공간에서 가능한 이벤트의 결과가 두 종류뿐인 것으로 레이블이 지정되며, 이를 양수(값 1)및 음수(값 0)라고 합니다. 이 프레임워크는 일반적으로 간단한 방법을 통해 멀티카테고리 분류로 확장하거나 필요 시에는 연속형 출력 값을 가지는 경우에도 활용될 수 있습니다. 바이너리 분류를 수행하는 경우, 유리한 패싯 a와 불리한 패싯 d에 대해 원시 데이터 세트에 기록된 결과에 양수 및 음수 레이블이 할당됩니다. 이러한 레이블 y는 ML 수명 주기의 훈련 또는 추론 단계를 거치면서 기계 학습 모델에 의해 할당되는 예측된 레이블 y'와 구분짓기 위해 관찰된 레이블이라고 부릅니다. 이들 레이블은 각각의 패싯 결과에 대한 확률 분포 Pa(y)와 Pd(y)를 정의하는 데 사용됩니다.

  • 레이블

    • y는 훈련 데이터 세트에서의 이벤트 결과에 대해 관찰된 n개의 레이블을 나타냅니다.

    • y'는 훈련된 모델이 데이터 세트에서 관찰한 n개의 레이블에 대해 예측된 레이블을 나타냅니다.

  • 결과:

    • 샘플에 대한 긍정적인 결과(값 1)(예: 신청 승인)

      • n(1)은 긍정적인 결과(승인)에 대해 관찰된 레이블의 수입니다.

      • n'(1)은 긍정적인 결과(승인)에 대해 예측된 레이블의 수입니다.

    • 샘플에 대한 부정적인 결과(값 0)(예: 신청 거부).

      • n(0)은 부정적인 결과(거부)에 대해 관찰된 레이블의 수입니다.

      • n'(0)은 부정적인 결과(거부)에 대해 예측된 레이블의 수입니다.

  • 패싯 값:

    • 패싯 a - 유리하게 편향되는 인구 집단을 정의하는 특징 값입니다.

      • na은 유리한 패싯 값에 대해 관찰된 레이블의 수입니다: na = na(1) + na(0) 패싯값 a에 대해 관찰된 양수 및 음수 레이블의 합계.

      • n’a은 유리한 패싯 값에 대해 예측된 레이블의 수입니다: n’a = n’a(1) + n’a(0) 패싯값 a에 대해 예측된 양수 및 음수 결과 레이블의 합계. 참고로 an' = na입니다.

    • 패싯 d - 불리하게 편향되는 인구 집단을 정의하는 특징 값입니다.

      • nd은 불리한 패싯 값에 대해 관찰된 레이블의 수입니다: nd = nd(1) + nd(0) 패싯값 d에 대해 관찰된 양수 및 음수 레이블의 합계.

      • n’d은 불리한 패싯 값에 대해 예측된 레이블의 수입니다: n’d = n’d(1) + n’d(0) 패싯값 d에 대해 예측된 양수 및 음수 결과 레이블의 합계. 참고로 dn' = nd입니다.

  • 레이블이 지정된 패싯 데이터 결과의 결과값에 대한 확률 분포:

    • Pa(y)는 패싯 a에 대해 관찰된 레이블의 확률 분포입니다. 바이너리 레이블이 지정된 데이터의 경우, 이 분포는 전체 수에 대해 긍정적인 결과로 레이블이 지정된 패싯 a의 샘플 수의 비율인 Pa(y1) = na(1)/ na과 전체 수에 대해 부정적인 결과가 나온 샘플 수의 비율인 Pa(y0) = na(0)/ na에 의해 제공됩니다.

    • Pd(y)는 패싯 d에 대해 관찰된 레이블의 확률 분포입니다. 바이너리 레이블이 지정된 데이터의 경우, 이 분포는 전체 수에 대해 긍정적인 결과로 레이블이 지정된 패싯 d의 샘플 수인 Pd(y1) = nd(1)/ nd과 전체 수에 대해 부정적인 결과가 나온 샘플 수의 비율인 Pd(y0) = nd(0)/ nd에 의해 제공됩니다.

인구통계학적 차이에 의해 편향된 데이터를 기반으로 훈련된 모델은 이를 학습하고 심지어 악화시킬 수도 있습니다. 데이터를 기반으로 모델을 훈련하기 위해 리소스를 지출하기 전에 데이터의 편향을 식별하기 위해 SageMaker Clarify는 훈련 전에 원시 데이터 세트에서 계산할 수 있는 데이터 편향 지표를 제공합니다. 모든 훈련 전 지표는 모델 출력에 의존하지 않아서 모든 모델에 대해 유효하므로 모델에 구애받지 않게 됩니다. 첫 번째 편향 지표는 패싯 불균형을 조사하지만 결과는 조사하지 않습니다. 이는 훈련 데이터가 응용 분야에서 원하는 방향대로 다양한 패싯을 어느 정도까지 반영하고 있는지를 결정합니다. 나머지 편향 지표는 데이터의 패싯 ad에 대한 결과 레이블의 분포를 다양한 방식으로 비교합니다. 지표의 범위가 음수 값보다 큰 경우 음의 편향을 감지할 수 있습니다. 다음 표에는 빠른 지침을 위한 치트 시트와 훈련 전 편향 지표에 대한 링크가 포함되어 있습니다.

훈련 전 편향 지표

편향 지표 설명 예시 질문 지표 값의 해석
클래스 불균형(CI) 서로 다른 패싯 값 사이의 멤버 수 불균형을 측정합니다.

중년 연령층 이외의 인구 집단에 대한 데이터가 충분하지 않아 연령에 따른 편향이 발생할 수 있나요?

정규화된 범위: [-1,+1]

해석:

  • 양수 값은 패싯 a의 데이터 세트에 훈련 샘플이 더 많다는 것을 나타냅니다.

  • 값이 0에 가까우면 데이터 세트의 훈련 샘플 수와 패싯이 균형을 이루고 있음을 나타냅니다.

  • 음수 값은 패싯 d의 데이터 세트에 훈련 샘플이 더 많다는 것을 나타냅니다.

레이블 비율 차이(DPL) 여러 패싯 값 사이에서 긍정적인 결과의 불균형을 측정합니다. 데이터 내 패싯 값의 편향된 레이블 지정으로 인해 ML 예측에 연령에 따른 편향이 발생할 수 있나요?

정규화된 바이너리 및 멀티카테고리 패싯 레이블의 범위: [-1, +1]

연속형 레이블의 범위: (-∞, +∞)

해석:

  • 양수 값은 패싯 a에 긍정적인 결과의 비율이 더 높다는 것을 나타냅니다.

  • 값이 0에 가까울수록 패싯 간에 긍정적인 결과의 비율이 비교적 균등함을 나타냅니다.

  • 음수 값은 패싯 d에 긍정적인 결과의 비율이 더 높다는 것을 나타냅니다.

쿨백-라이블러 발산(KL) 여러 패싯의 결과 분포가 서로 엔트로피적으로 얼마나 발산되는지 측정합니다. 인구 집단별로 대출 신청 결과에 대한 분포가 얼마나 다른가요?

바이너리, 멀티카테고리, 연속형의 범위: [0, +∞)

해석:

  • 값이 0에 가까우면 여러 레이블의 분포가 서로 비슷함을 나타냅니다.

  • 양수 값은 레이블 분포가 서로 발산된다는 것을 나타내며, 양수 값이 커질수록 발산의 정도도 커집니다.

젠슨-섀넌 발산(JS) 여러 패싯의 결과 분포가 서로 엔트로피적으로 얼마나 발산되는지 측정합니다. 인구 집단별로 대출 신청 결과에 대한 분포가 얼마나 다른가요?

바이너리, 멀티카테고리, 연속형의 범위: [0, +∞)

해석:

  • 값이 0에 가까우면 여러 레이블의 분포가 서로 비슷함을 나타냅니다.

  • 양수 값은 레이블 분포가 서로 발산된다는 것을 나타내며, 양수 값이 커질수록 발산의 정도도 커집니다.

Lp-norm(LP) 데이터 세트 내의 다양한 패싯과 관련된 결과의 서로 다른 인구통계학적 분포 간의 p-norm 차이를 측정합니다. 인구 집단별로 대출 신청 결과에 대한 분포가 얼마나 다른가요?

바이너리, 멀티카테고리, 연속형의 범위: [0, +∞)

해석:

  • 값이 0에 가까우면 여러 레이블의 분포가 서로 비슷함을 나타냅니다.

  • 양수 값은 레이블 분포가 서로 발산된다는 것을 나타내며, 양수 값이 커질수록 발산의 정도도 커집니다.

총 변형 거리(TVD) 데이터 세트 내의 다양한 패싯과 관련된 결과의 서로 다른 인구통계학적 분포 간의 L1-norm 차이의 절반을 측정합니다. 인구 집단별로 대출 신청 결과에 대한 분포가 얼마나 다른가요?

바이너리, 멀티카테고리, 연속형 결과의 범위: [0, +∞)

  • 값이 0에 가까우면 여러 레이블의 분포가 서로 비슷함을 나타냅니다.

  • 양수 값은 레이블 분포가 서로 발산된다는 것을 나타내며, 양수 값이 커질수록 발산의 정도도 커집니다.

콜모고로프-스미르노프(KS) 데이터 세트 내의 서로 다른 패싯에 대한 분포에서 결과 간의 최대 발산 정도를 측정합니다. 인구 집단별 대학 지원 결과값의 차이가 가장 큰 결과는 무엇입니까? 바이너리, 멀티카테고리 및 연속형 결과의 KS 값 범위: [0,+1]
  • 값이 0에 가까우면 모든 결과 범주에서 레이블이 패싯 간에 균등하게 분포되어 있음을 나타냅니다.

  • 값이 1에 가까우면 한 가지 범주에 대한 레이블이 하나의 패싯에 몰려 있으므로 불균형이 심하다는 것을 나타냅니다.

  • 간헐적인 값은 레이블 불균형 최대치의 상대적인 정도를 나타냅니다.

조건부 인구통계학적 차이(CDD) 전체적으로 서로 다른 패싯 간의 결과 차이를 측정하지만 부분군별로도 측정합니다. 일부 그룹의 대학 입시 결과에서 불합격 비율이 합격 비율보다 더 높은가요?

범위CDD: [-1, +1]

  • 양수 값은 패싯 d의 결과에서 합격보다 불합격이 많음을 나타냅니다.

  • 0에 가까우면 평균적으로 인구통계학적 차이가 없음을 나타냅니다.

  • 음수 값은 패싯 a의 결과에서 합격보다 불합격이 많음을 나타냅니다.

편향 지표에 대한 자세한 내용은 Fairness Measures for Machine Learning in Finance를 참조하세요.