기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
SageMaker Studio에서 훈련 전 데이터의 편향에 대한 보고서 생성
SageMaker Clarify는 Amazon SageMaker Data Wrangler와 통합되어 있으므로 사용자가 코드를 직접 작성하지 않아도 데이터를 준비하는 단계에서 편향을 식별하는 것이 가능합니다. Data Wrangler는 Amazon SageMaker Studio에서 데이터 가져오기, 준비, 변환, 특징화, 분석을 수행할 수 있는 엔드 투 엔드 솔루션을 제공합니다. Data Wrangler 데이터 준비 워크플로에 대한 개요는 Amazon SageMaker Data Wrangler로 ML 데이터 준비하기를 참조하세요.
사용자가 성별이나 연령과 같은 관심 속성을 지정하면 SageMaker Clarify는 알고리즘 세트를 실행하여 해당 속성에 편향이 있는지 여부를 감지합니다. 알고리즘 실행이 완료된 후 SageMaker Clarify는 편향 발생의 가능한 원인 및 심각도에 대한 설명이 포함된 시각적 보고서를 제공해주므로 사용자는 이를 완화하기 위한 단계를 계획할 수 있습니다. 예를 들어, 다른 연령대에 비해 한 연령대에 대한 비즈니스 대출의 예가 거의 없는 금융 데이터 세트에서 SageMaker AI는 불균형에 플래그를 지정하여 해당 연령대에 불리한 모델을 피할 수 있도록 합니다.
데이터 편향을 분석하고 보고하는 방법
Data Wrangler를 시작하려면 Data Wrangler 시작하기를 참조하세요.
-
Amazon SageMaker Studio Classic의 왼쪽 패널에 있는 홈(
) 메뉴에서 데이터 노드로 이동한 다음 Data Wrangler를 선택합니다. 그러면 Studio Classic에서 Data Wrangler 랜딩 페이지가 열립니다.
-
+ 데이터 가져오기 버튼을 클릭하여 새 흐름을 생성합니다.
-
플로우 페이지의 가져오기 탭에서 Amazon S3를 선택하고, Amazon S3 버킷으로 이동하여 해당 데이터세트를 찾은 다음, 가져오기를 선택합니다.
-
데이터를 가져오고 나면, 데이터 흐름 탭에 있는 플로우 그래프에서 데이터 유형 노드 오른쪽에 있는 + 기호를 선택합니다.
-
분석 추가를 선택합니다.
-
분석 생성 페이지에 있는 분석 유형 항목에서 편향 보고서를 선택합니다.
-
보고서 이름, 예측할 열과 값/임계값 여부, 편향을 분석할 열(해당 패싯)과 값/임계값 여부를 입력하여 편향 보고서를 구성합니다.
-
원하는 편향 지표를 선택하여 편향 보고서 구성을 계속하세요.
-
편향 검사하기를 선택하여 편향 보고서를 생성하고 확인합니다. 아래로 스크롤하여 전체 보고서를 봅니다.
-
각 편향 지표 설명의 오른쪽에 있는 화살표를 선택하면 지표 값의 중요도를 해석하는 데 도움이 되는 문서를 볼 수 있습니다.
-
바이어스 지표 값의 테이블 요약을 보려면 테이블 토글을 선택하세요. 보고서를 저장하려면 페이지의 오른쪽 아래 모서리에 있는 저장을 선택합니다. 데이터 흐름 탭에 나와 있는 플로우 그래프에서 보고서를 확인할 수 있습니다. 보고서를 두 번 클릭하여 엽니다.