Clarify를 사용하여 편향을 SageMaker 설명하고 탐지할 수 있습니다. - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Clarify를 사용하여 편향을 SageMaker 설명하고 탐지할 수 있습니다.

이 주제에서는 공정성을 이해하고 설명 가능성을 모델링하는 방법과 Amazon Clarify를 사용하여 편향을 설명하고 탐지하는 방법을 설명합니다. SageMaker 편향 지표 및 기능 속성을 계산하고 모델 SageMaker 설명 가능성에 대한 보고서를 생성하도록 Clarify 처리 작업을 구성할 수 있습니다. SageMaker 특수 Clarify 컨테이너 이미지를 사용하여 SageMaker 명확화 처리 작업을 구현합니다. 다음 지침은 Clarify 처리 작업을 구성, 실행 및 문제 해결하는 방법과 분석을 구성하는 방법을 보여줍니다. SageMaker

기계 학습 예측의 공정성 및 모델 설명 가능성이란 무엇입니까?

기계 학습 (ML) 모델은 금융 서비스, 의료, 교육, 인사 등의 영역에서 의사 결정을 내리는 데 도움이 됩니다. 정책 입안자, 규제 기관 및 지지자들은 ML 및 데이터 기반 시스템이 야기하는 윤리적 및 정책적 문제에 대한 인식을 높였습니다. Amazon SageMaker Clarify는 ML 모델이 특정 예측을 한 이유와 이러한 편향이 훈련 또는 추론 중에 이 예측에 영향을 미치는지 여부를 이해하는 데 도움이 될 수 있습니다. SageMaker Clarify는 또한 편향되지 않고 이해하기 쉬운 기계 학습 모델을 구축하는 데 도움이 되는 도구를 제공합니다. SageMaker 또한 Clarify는 위험 및 규정 준수 팀과 외부 규제 기관에 제공할 수 있는 모델 거버넌스 보고서를 생성할 수 있습니다. SageMaker Clarify를 사용하면 다음과 같은 작업을 수행할 수 있습니다.

  • 모델 예측의 편향을 감지하고 모델 예측을 설명하는 데 도움이 됩니다.

  • 사전 훈련 데이터에서 편향 유형을 식별하십시오.

  • 학습 중 또는 모델이 생산 단계에 있을 때 나타날 수 있는 훈련 후 데이터에서 편향 유형을 식별하십시오.

SageMaker Clarify는 특징 속성을 사용하여 모델이 예측을 수행하는 방법을 설명하는 데 도움이 됩니다. 또한 제작 중인 추론 모델의 편향 및 특징 속성 변화 모두를 모니터링할 수 있습니다. 이 정보는 다음 영역에서 도움이 될 수 있습니다.

  • 규제 — 정책 입안자 및 기타 규제 기관은 ML 모델의 결과를 사용하는 의사 결정의 차별적 영향에 대해 우려할 수 있습니다. 예를 들어 ML 모델은 편견을 불러일으키고 자동화된 의사 결정에 영향을 미칠 수 있습니다.

  • 비즈니스 — 규제 대상 도메인에는 ML 모델이 예측하는 방식에 대한 신뢰할 수 있는 설명이 필요할 수 있습니다. 모델 설명 가능성은 신뢰성, 안전, 규정 준수에 의존하는 산업에서 특히 중요할 수 있습니다. 여기에는 금융 서비스, 인사, 의료, 자동 운송 등이 포함될 수 있습니다. 예를 들어 대출 애플리케이션은 ML 모델이 대출 담당자, 예측 담당자 및 고객에게 특정 예측을 어떻게 수행했는지에 대한 설명을 제공해야 할 수 있습니다.

  • 데이터 과학 — 데이터 사이언티스트와 ML 엔지니어는 모델이 잡음이 많거나 관련 없는 특징을 기반으로 추론을 수행하는지 판단할 수 있을 때 ML 모델을 디버깅하고 개선할 수 있습니다. 또한 모델의 한계와 모델에서 발생할 수 있는 장애 양상을 이해할 수 있습니다.

Clarify를 SageMaker 파이프라인에 SageMaker 통합하는 사기성 자동차 클레임에 대한 완전한 기계 학습 모델을 설계하고 구축하는 방법을 보여주는 블로그 게시물은 Architect를 참조하고 Amazon 데모를 통해 전체 기계 학습 수명 주기를 구축하십시오. AWS end-to-end SageMaker 이 블로그 게시물에서는 사전 교육 및 교육 후 편향을 평가하고 완화하는 방법과 기능이 모델 예측에 미치는 영향에 대해 설명합니다. 블로그 게시물에는 ML 라이프사이클의 각 작업에 대한 예제 코드 링크가 포함되어 있습니다.

ML 라이프사이클의 공정성과 설명 가능성을 평가하는 모범 사례

프로세스로서의 공정성 — 편향과 공정성에 대한 개념은 애플리케이션에 따라 다릅니다. 편향 측정과 편향 지표의 선택은 사회적, 법적 및 기타 비기술적 고려 사항에 따라 결정될 수 있습니다. 공정성을 중시하는 ML 접근 방식을 성공적으로 채택하려면 합의를 도출하고 주요 이해 관계자 간의 협업을 달성하는 것이 포함됩니다. 여기에는 제품, 정책, 법률, 엔지니어링, AI/ML 팀, 최종 사용자 및 커뮤니티가 포함될 수 있습니다.

ML 라이프사이클의 공정성 및 설명 가능성 설계 — ML 라이프사이클의 각 단계에서 공정성과 설명 가능성을 고려하세요. 이러한 단계에는 문제 형성, 데이터세트 구성, 알고리즘 선택, 모델 교육 프로세스, 테스트 프로세스, 배포, 모니터링 및 피드백이 포함됩니다. 이러한 분석을 수행할 수 있는 올바른 도구를 갖추는 것이 중요합니다. ML 라이프사이클 동안 다음과 같은 질문을 해보는 것이 좋습니다.

  • 모델이 피드백 루프를 장려하여 점점 불공평한 결과를 초래할 수 있나요?

  • 알고리즘이 문제의 윤리적인 해결책일까요?

  • 교육 데이터가 여러 그룹을 대표하나요?

  • 라벨이나 기능에 편향이 있나요?

  • 편향을 완화하기 위해 데이터를 수정해야 하나요?

  • 공정성 제약 조건을 목적 함수에 포함해야 합니까?

  • 관련 공정성 메트릭을 사용하여 모델을 평가한 적이 있습니까?

  • 사용자 간에 불균등한 효과가 나타나고 있나요?

  • 모델이 교육 또는 평가를 거치지 않은 모집단에 배포되었습니까?

공정성과 모델 설명 가능성을 평가하는 프로세스에 대한 모범 사례입니다.

SageMaker 설명 및 편향 문서 가이드

모델을 학습시키기 전과 후에 데이터에서 편향이 발생할 수 있으며 이를 측정할 수 있습니다. SageMaker Clarify는 학습 후의 모델 예측과 프로덕션에 배포된 모델에 대한 설명을 제공할 수 있습니다. SageMaker 또한 Clarify는 프로덕션 중인 모델의 베이스라인 설명 속성 편차를 모니터링하고 필요한 경우 베이스라인을 계산할 수 있습니다. Clarify를 사용하여 SageMaker 편향을 설명하고 탐지하는 방법에 대한 설명서는 다음과 같이 구성되어 있습니다.

처리 작업의 SageMaker 명확화 작동 방식

Clarify를 사용하여 SageMaker 데이터세트와 모델을 분석하여 설명 가능성과 편향을 파악할 수 있습니다. SageMaker Clarify 처리 작업은 SageMaker Clarify 처리 컨테이너를 사용하여 입력 데이터세트를 포함하는 Amazon S3 버킷과 상호 작용합니다. 또한 Clarify를 사용하여 SageMaker SageMaker 추론 엔드포인트에 배포된 고객 모델을 분석할 수 있습니다.

다음 그림은 Clarify SageMaker 프로세싱 작업이 입력 데이터 및 선택적으로 고객 모델과 상호 작용하는 방식을 보여줍니다. 이 상호작용은 수행 중인 분석의 구체적인 유형에 따라 달라집니다. SageMaker Clarify 처리 컨테이너는 S3 버킷에서 분석을 위한 입력 데이터세트와 구성을 가져옵니다. 특징 분석을 비롯한 특정 분석 유형의 경우 Clarify SageMaker 처리 컨테이너는 모델 컨테이너에 요청을 보내야 합니다. 그런 다음에는 모델 컨테이너가 보내오는 응답에서 모델 예측을 얻어냅니다. 그런 다음 SageMaker Clarify 처리 컨테이너는 분석 결과를 계산하여 S3 버킷에 저장합니다.

SageMaker Clarify는 데이터 또는 고객 모델을 분석하여 설명 가능성과 편향을 파악할 수 있습니다.

기계 학습 워크플로 SageMaker 수명 주기의 여러 단계에서 Clarify 처리 작업을 실행할 수 있습니다. SageMaker Clarify는 다음과 같은 분석 유형을 계산하는 데 도움이 될 수 있습니다.

  • 사전 학습 편향 지표. 이러한 메트릭은 데이터의 편향을 이해하는 데 도움이 되므로 이를 해결하고 더 공정한 데이터 세트를 기반으로 모델을 훈련할 수 있습니다. 사전 훈련 편향 지표에 훈련 전 편향의 측정 대한 자세한 내용은 을 참조하십시오. 훈련 전 편향 지표를 분석하는 작업을 실행하려면, 해당 데이터 세트와 JSON 분석 구성 파일을 제공하여 분석 구성해야 합니다.

  • 훈련 후 편향 측정항목. 이러한 메트릭은 알고리즘으로 인한 편향, 하이퍼파라미터 선택 또는 흐름 초기에는 분명하지 않았던 편향을 이해하는 데 도움이 될 수 있습니다. 훈련 후 편향 측정항목에 대한 자세한 내용은 을 참조하십시오. 훈련 후 데이터 및 모델 편향의 측정 SageMaker Clarify는 데이터 및 레이블 외에도 모델 예측을 사용하여 편향을 식별합니다. 훈련 후 편향 지표를 분석하는 작업을 실행하려면, 해당 데이터 세트와 JSON 분석 구성 파일을 제공해야 합니다. 해당 구성에는 모델 또는 엔드포인트 이름이 포함되어야 합니다.

  • 셰이핑 값: 특성이 모델 예측 결과에 미치는 영향을 이해하는 데 도움이 될 수 있습니다. Shapely 값에 대한 자세한 내용은 을 참조하십시오. Shapley 값을 사용하는 기능 특성 이 특징을 사용하려면 훈련된 모델이 필요합니다.

  • 부분 종속성 도표 (PDP): 한 특징의 값을 변경할 경우 예측 대상 변수가 얼마나 변할지 이해하는 데 도움이 됩니다. PDP에 대한 자세한 내용은 부분 종속성 도표(PDP) 분석 이 기능을 사용하려면 학습된 모델이 필요함을 참조하십시오.

SageMaker 학습 후 편향 메트릭과 기능 속성을 계산하려면 필요 모델 예측을 명확히 하십시오. 엔드포인트를 제공하거나 SageMaker Clarify가 모델 이름을 사용하여 임시 엔드포인트 (섀도우 엔드포인트라고도 함) 를 생성할 수 있습니다. SageMaker Clarify 컨테이너는 계산이 완료된 후 섀도우 엔드포인트를 삭제합니다. 상위 수준에서 Clarify SageMaker 컨테이너는 다음 단계를 완료합니다.

  1. 입력 및 매개변수의 유효성을 검사합니다.

  2. 섀도우 엔드포인트를 생성합니다(모델 이름이 제공된 경우).

  3. 입력 데이터 세트를 데이터 프레임에 로드합니다.

  4. 필요한 경우 엔드포인트에서 모델 예측을 가져옵니다.

  5. 편향 지표와 특징 속성을 계산합니다.

  6. 섀도우 엔드포인트를 삭제합니다.

  7. 분석 결과를 생성합니다.

SageMaker Clarify 처리 작업이 완료되면 작업의 처리 출력 매개변수에 지정한 출력 위치에 분석 결과가 저장됩니다. 이러한 결과에는 편향 지표 및 글로벌 특징 속성이 포함된 JSON 파일, 시각적 보고서, 그리고 로컬 특징 속성을 위한 추가 파일이 포함됩니다. 결과는 출력 위치에서 다운로드하여 볼 수 있습니다.

편향 지표, 설명 가능성 및 해석 방법에 대한 추가 정보는 Amazon SageMaker Clarify가 편향 탐지를 지원하는 방법, 금융 분야의 Machine Learning을 위한 공정성 측정 방법, Amazon AI 공정성 및 설명 가능성 백서를 참조하십시오.

샘플 노트북

다음 섹션에는 Clarify 사용을 SageMaker 시작하는 데 도움이 되는 노트북과 분산 작업 내부를 비롯한 특수 작업 및 컴퓨터 비전에 사용할 수 있는 노트북이 수록되어 있습니다.

시작하기

다음 샘플 노트북은 Clarify를 사용하여 SageMaker 설명 가능성 및 모델 편향 작업을 시작하는 방법을 보여줍니다. 이러한 작업에는 처리 작업 생성, 기계 학습 (ML) 모델 교육, 모델 예측 모니터링이 포함됩니다.

특수 사례

다음 노트북은 자체 컨테이너 내부를 포함한 특수한 경우와 자연어 처리 작업에 Colarify를 사용하는 방법을 보여줍니다. SageMaker

이 노트북은 Amazon SageMaker Studio Classic에서 실행되도록 검증되었습니다. Studio Classic에서 노트북을 여는 방법에 대한 지침이 필요한 경우 을 참조하십시오Amazon SageMaker 스튜디오 클래식 노트북 생성 또는 열기. 커널을 선택하라는 메시지가 표시되면, Python 3(데이터 과학)를 선택합니다.