사전 훈련 데이터 편향 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

사전 훈련 데이터 편향

알고리즘 편향, 차별, 공정성 및 관련 주제는 법률, 정책 및 컴퓨터 과학과 같은 여러 분야에서 연구되어 왔습니다. 컴퓨터 시스템이 특정 개인 또는 개인 집단에 차별적인 경우 이는 편향된 것으로 간주될 수 있습니다. 이러한 애플리케이션을 구동하는 기계 학습 모델은 데이터를 통해 학습하며, 이 데이터는 차이 또는 기타 내재된 편향을 반영할 수 있습니다. 예를 들어, 훈련 데이터가 다양한 인구 집단을 충분히 반영하지 못하거나 편향된 레이블을 포함하고 있을 수 있습니다. 이러한 편향을 나타내는 데이터 세트로 훈련된 기계 학습 모델은 결국 이러한 편향을 학습한 다음 예측 시 같은 편향을 재현하거나 심지어 악화시킬 가능성도 있습니다. 기계 학습 분야는 ML 수명 주기의 각 단계에서 편향을 탐지하고 측정하여 이를 해결할 수 있는 기회를 제공합니다. Amazon SageMaker Clarify를 사용하여 훈련 모델에 사용되는 데이터가 바이어스를 인코딩하는지 확인할 수 있습니다.

훈련 전과 훈련 후에 편향을 측정하고, 추론을 위해 엔드포인트에 모델을 배포한 후 기준과 비교하면서 모니터링하는 것이 가능합니다. 훈련 전 편향 지표는 데이터를 모델 훈련 용도로 사용하기 전에 원시 데이터의 편향을 감지하고 측정하도록 설계되었습니다. 이 때 사용되는 지표는 모델 출력에 의존하지 않으므로 모델에 구애받지 않습니다. 그러나 공정성의 개념은 여러 가지가 있기 때문에 고유한 편향의 측정값이 필요합니다. Amazon SageMaker Clarify는 다양한 공정성 기준을 정량화하는 편향 지표를 제공합니다.

편향 지표에 대한 자세한 내용은 Amazon SageMaker Clarify가 금융에서 기계 학습을 위한 편향 및 공정성 측정치를 탐지하는 데 어떻게 도움이 되는지 알아보기를 참조하세요. Machine Learning

편향 및 공정성에 대한 Amazon SageMaker Clarify 용어

SageMaker Clarify는 다음 용어를 사용하여 편향과 공정성을 논의합니다.

기능

관찰 대상인 현상의 측정 가능한 개별 속성 또는 특성을 테이블 형식에 맞는 열에 포함시킨 데이터를 말합니다.

레이블

기계 학습 모델의 훈련 대상이 되는 특징을 말합니다. 이를 관찰된 레이블 또는 관찰된 결과라고 합니다.

예측 레이블

모델에 의해 예측된 레이블을 말합니다. 예측된 결과라고도 합니다.

Sample

특징 값과 레이블 값으로 설명되는 관찰된 객체로서, 테이블 형식 데이터를 위한 행에 포함됩니다.

데이터세트

여러 샘플이 모인 데이터를 말합니다.

편향

연령이나 소득 계층과 같은 다양한 그룹에 걸쳐 발생하게 되는 훈련 데이터 또는 모델 예측 행동 상의 불균형을 말합니다. 편향은 모델 학습에 사용된 데이터 또는 알고리즘으로 인해 발생할 수 있습니다. 예를 들어 ML 모델이 주로 중년 개인의 데이터를 기반으로 훈련되는 경우, 청년층과 노년층을 대상으로 예측을 수행할 때는 정확도가 떨어질 수 있습니다.

편향 지표

잠재적 편향의 수준을 나타내는 수치값을 반환하는 함수를 말합니다.

편향 리포트

주어진 데이터 세트 또는 데이터 세트와 모델의 조합에 대한 편향 지표를 모은 자료를 말합니다.

긍정적인 레이블 값

샘플에서 관찰 대상 인구 집단에 유리하게 나타난 레이블 값을 말합니다. 즉, 샘플에서 긍정적인 결과가 확인되었다고 지정하는 것입니다.

부정적인 레이블 값

샘플에서 관찰 대상 인구 집단에 불리하게 나타난 레이블 값을 말합니다. 즉, 샘플에서 부정적인 결과가 확인되었다고 지정하는 것입니다.

그룹 변수

조건부 인구통계학적 차이() 측정을 위한 하위 그룹을 형성하는 데 사용되는 데이터 세트의 범주형 열입니다CDD. 심슨의 역설과 관련하여 이 CDD 지표에만 필요합니다.

패싯

편향이 측정되는 대상과 관련된 속성을 포함하고 있는 열 또는 특징을 말합니다.

패싯 값

편향에 의한 유리함 또는 불리함이 발생할 수 있는 속성의 특징 값을 말합니다.

예측 확률

모델이 수행한 예측에 따라 샘플이 긍정적이거나 부정적인 결과를 가질 확률을 말합니다.

샘플 노트북

Amazon SageMaker Clarify는 편향 감지를 위한 다음 샘플 노트북을 제공합니다.

이 노트북은 Amazon SageMaker Studio에서만 실행되는 것으로 확인되었습니다. Amazon SageMaker Studio에서 노트북을 여는 방법에 대한 지침이 필요한 경우 섹션을 참조하세요Amazon SageMaker Studio Classic 노트북 생성 또는 열기. 커널을 선택하라는 메시지가 표시되면, Python 3(데이터 과학)를 선택합니다.