Amazon SageMaker Pipelines의 ClarifyCheck 및 QualityCheck 단계를 사용한 기준 계산, 드리프트 감지 및 수명 주기 - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon SageMaker Pipelines의 ClarifyCheck 및 QualityCheck 단계를 사용한 기준 계산, 드리프트 감지 및 수명 주기

다음 주제에서는 ClarifyCheckQualityCheck 단계를 사용할 때 Amazon SageMaker Pipelines에서 기준 및 모델 버전이 어떻게 진화하는지 설명합니다.

ClarifyCheck 단계에서 기준은 단계 속성에 constraints접미사가 있는 단일 파일입니다. QualityCheck 단계에서 기준은 단계 속성에 있는 두 파일의 조합입니다.하나는 statistics접미사가 있고 다른 하나는 constraints접미사가 있는 파일입니다. 다음 항목에서는 사용 방법을 설명하는 접두사를 사용하여 이러한 속성에 대해 설명합니다.접두사는 이러한 두 파이프라인 단계의 기준 동작과 수명 주기에 영향을 미칩니다. 예를 들어, ClarifyCheck단계는 항상 CalculatedBaselineConstraints속성의 새 기준을 계산하여 할당하고 QualityCheck단계는 CalculatedBaselineConstraintsCalculatedBaselineStatistics속성에서 동일한 작업을 수행합니다.

ClarifyCheck 및 QualityCheck 단계에 대한 기준 계산 및 등록

ClarifyCheckQualityCheck단계 모두는 기본 처리 작업 실행을 통한 단계 입력을 기반으로 항상 새 기준을 계산합니다. 새로 계산된 기준은 CalculatedBaseline접두사가 있는 속성을 통해 액세스할 수 있습니다. 이러한 속성을 모델 패키지의 ModelMetrics속성으로 모델 단계에 기록할 수 있습니다. 이 모델 패키지는 5가지 기준으로 등록할 수 있습니다. 각 검사 유형별로 하나씩 등록할 수 있습니다.즉, ClarifyCheck단계 실행으로 데이터 바이어스, 모델 바이어스, 모델 설명 가능성, QualityCheck단계 실행으로 데이터 품질 등이 가능합니다. register_new_baseline 파라미터는 단계 실행 후 BaselineUsedForDriftCheck접두사가 있는 속성에 설정된 값을 결정합니다.

다음 잠재적 사용 사례 표는 ClarifyCheckQualityCheck단계에 대해 설정할 수 있는 단계 파라미터로 인한 다양한 동작을 보여줍니다.

이 구성을 선택할 때 고려할 수 있는 잠재적 사용 사례 skip_check / register_new_baseline 단계의 드리프트 검사 시행여부 단계 속성의 값 CalculatedBaseline 단계 속성의 값 BaselineUsedForDriftCheck

새 모델 버전을 얻기 위해 검사를 활성화한 상태에서 정기적으로 재훈련을 하고 있지만, 새 모델 버전의 모델 레지스트리에 있는 DriftCheckBaselines으로 이전 기준을 그대로 유지하려고 합니다.

False/ False 드리프트 검사는 기존 기준에 대해 실행됩니다. 단계를 실행하여 계산된 새 기준 모델 레지스트리에서 승인된 최신 모델의 기준 또는 단계 파라미터로 제공된 기준

새 모델 버전을 받기 위해 검사를 활성화하여 정기적으로 재훈련을 하고 있지만 새 모델 버전에 맞게 새로 계산된 기준으로 모델 레지스트리의 DriftCheckBaselines을 새로 고치려고 합니다.

False/ True 드리프트 검사는 기존 기준을 기준으로 실행됩니다. 단계를 실행하여 계산된 새 기준 단계를 실행하여 새로 계산된 기준 (속성 값 CalculatedBaseline)

특정 유형의 검사에 대해 엔드포인트에서 Amazon SageMaker Model Monitor가 감지한 위반이 있고 이전 기준과 비교하여 이러한 유형의 검사를 건너뛰고 새 모델 버전의 모델 레지스트리DriftCheckBaselines에서와 같이 이전 기준을 이월하려는 경우 파이프라인을 시작하여 새 모델 버전을 재훈련합니다.

True/ False 드리프트 검사 없음 실행을 통해 계산된 새 기준 모델 레지스트리에서 승인된 최신 모델의 기준 또는 단계 파라미터로 제공된 기준
이 동작은 다음과 같은 경우에 발생합니다.
  • 파이프라인의 초기 실행을 시작하고, 첫 번째 모델 버전을 빌드하고, 초기 기준을 생성합니다.

  • 특정 유형의 검사에 대해 엔드포인트에서 Model Monitor에서 위반이 감지되었으므로 새 모델 버전을 재학습하기 위해 파이프라인을 시작하고 있습니다. 이전 기준에 대한 검사를 건너뛰고 모델 레지스트리에서 새로 계산된 기준으로 DriftCheckBaselines을 직접 새로 고치려는 경우

True/ True 드리프트 검사 없음 단계를 실행하여 계산된 새 기준 단계를 실행하여 새로 계산된 기준 (속성 값 CalculatedBaseline)
참고

제약 조건에 과학적 표기법을 사용하는 경우 플로트로 변환해야 합니다. 이렇게 하는 방법의 전처리 스크립트 예제는 모델 품질 기준 생성을 참조하세요.

모델 단계에 모델을 등록할 때 BaselineUsedForDriftCheck속성을 DriftCheckBaselines으로 등록할 수 있습니다. 그러면 Model Monitor에서 모델 및 데이터 품질 검사에 이러한 기준 파일을 사용할 수 있습니다. 또한 ClarifyCheckStep 및 QualityCheck 단계에서 이러한 기준을 사용하여 새로 훈련된 모델을 향후 파이프라인 실행을 위해 모델 레지스트리에 등록된 기존 모델과 비교할 수도 있습니다.

파이프라인의 이전 기준에 대한 드리프트 감지

QualityCheck단계에서 새 모델 버전을 받기 위해 정기적인 재훈련을 위한 파이프라인을 시작할 때 데이터 품질과 데이터 바이어스에 이전 승인된 모델 버전의 기준에 대해 위반에 대한 스키마(constraint_violations.json 파일)이 존재한다면 훈련 단계를 실행하지 않는 것이 좋습니다. 또한 ClarifyCheck단계를 실행할 때 모델 품질, 모델 바이어스 또는 모델 설명 가능성이 이전에 승인된 모델 버전의 등록된 기준을 위반하는 경우 새로 훈련된 모델 버전을 등록하지 않는 것이 좋습니다. 이러한 경우, 해당 검사 단계 세트의 skip_check속성을 False로 설정하여 원하는 검사를 활성화할 수 있으며, 이전 기준에 대한 위반이 감지되면 ClarifyCheckQualityCheck단계가 실패하게 됩니다. 그러면 파이프라인 프로세스가 진행되지 않아 기준에서 벗어난 모델이 등록되지 않습니다. 또한 ClarifyCheck, QualityCheck단계를 통해 특정 모델 패키지 그룹의 승인된 최신 모델 버전의 DriftCheckBaselines을 가져와 비교할 수 있습니다. 이전 기준은 supplied_baseline_constraints를 통해(QualityCheck 단계가 있는 경우 supplied_baseline_statistics에 추가하여) 직접 제공할 수도 있으며, 이전 기준은 항상 모델 패키지 그룹에서 가져온 기준보다 우선 순위가 지정됩니다.

파이프라인을 사용한 기준 및 모델 버전 수명 주기 및 진화

ClarifyCheckQualityCheck단계의 register_new_baselineFalse로 설정하면 단계 속성 접두사 BaselineUsedForDriftCheck을 통해 이전 기준에 액세스할 수 있습니다. 그러면 모델을 모델 단계에 등록할 때 이러한 기준을 새 모델 버전의 DriftCheckBaselines으로 등록할 수 있습니다. 모델 레지스트리에서 이 새 모델 버전을 승인하면 이 모델의 버전의 DriftCheckBaseline을 다음 파이프라인 프로세스의 ClarifyCheckQualityCheck단계에서 사용할 수 있게 됩니다. 향후 모델 버전을 위해 특정 검사 유형의 기준을 새로 고치려는 경우 BaselineUsedForDriftCheck접두사가 있는 속성이 새로 계산된 기준이 되도록 register_new_baselineTrue로 설정할 수 있습니다. 이러한 방식으로 향후 훈련된 모델에 대해 선호하는 기준을 보존하거나, 필요할 때 드리프트 검사의 기준을 새로 고쳐 모델 트레이닝 반복 전반에 걸친 기준 진화 및 라이프사이클을 관리할 수 있습니다.

다음 다이어그램은 기준 진화 및 수명 주기에 대한 보기를 보여줍니다 model-version-centric.

기준 진화 및 수명 주기에 대한 model-version-centric 뷰입니다.