기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon SageMaker Pipelines의 ClarifyCheck 및 QualityCheck 단계를 사용한 기준 계산, 드리프트 감지 및 수명 주기
다음 주제에서는 ClarifyCheck 및 QualityCheck 단계를 사용할 때 Amazon SageMaker Pipelines에서 기준 및 모델 버전이 어떻게 진화하는지 설명합니다.
ClarifyCheck
단계에서 기준은 단계 속성에 constraints
접미사가 있는 단일 파일입니다. QualityCheck
단계에서 기준은 단계 속성에 있는 두 파일의 조합입니다.하나는 statistics
접미사가 있고 다른 하나는 constraints
접미사가 있는 파일입니다. 다음 항목에서는 사용 방법을 설명하는 접두사를 사용하여 이러한 속성에 대해 설명합니다.접두사는 이러한 두 파이프라인 단계의 기준 동작과 수명 주기에 영향을 미칩니다. 예를 들어, ClarifyCheck
단계는 항상 CalculatedBaselineConstraints
속성의 새 기준을 계산하여 할당하고 QualityCheck
단계는 CalculatedBaselineConstraints
및 CalculatedBaselineStatistics
속성에서 동일한 작업을 수행합니다.
ClarifyCheck 및 QualityCheck 단계에 대한 기준 계산 및 등록
ClarifyCheck
및 QualityCheck
단계 모두는 기본 처리 작업 실행을 통한 단계 입력을 기반으로 항상 새 기준을 계산합니다. 새로 계산된 기준은 CalculatedBaseline
접두사가 있는 속성을 통해 액세스할 수 있습니다. 이러한 속성을 모델 패키지의 ModelMetrics
속성으로 모델 단계에 기록할 수 있습니다. 이 모델 패키지는 5가지 기준으로 등록할 수 있습니다. 각 검사 유형별로 하나씩 등록할 수 있습니다.즉, ClarifyCheck
단계 실행으로 데이터 바이어스, 모델 바이어스, 모델 설명 가능성, QualityCheck
단계 실행으로 데이터 품질 등이 가능합니다. register_new_baseline
파라미터는 단계 실행 후 BaselineUsedForDriftCheck
접두사가 있는 속성에 설정된 값을 결정합니다.
다음 잠재적 사용 사례 표는 ClarifyCheck
및 QualityCheck
단계에 대해 설정할 수 있는 단계 파라미터로 인한 다양한 동작을 보여줍니다.
이 구성을 선택할 때 고려할 수 있는 잠재적 사용 사례 | skip_check / register_new_baseline |
단계의 드리프트 검사 시행여부 | 단계 속성의 값 CalculatedBaseline |
단계 속성의 값 BaselineUsedForDriftCheck |
---|---|---|---|---|
새 모델 버전을 얻기 위해 검사를 활성화한 상태에서 정기적으로 재훈련을 하고 있지만, 새 모델 버전의 모델 레지스트리에 있는 |
False / False |
드리프트 검사는 기존 기준에 대해 실행됩니다. | 단계를 실행하여 계산된 새 기준 | 모델 레지스트리에서 승인된 최신 모델의 기준 또는 단계 파라미터로 제공된 기준 |
새 모델 버전을 받기 위해 검사를 활성화하여 정기적으로 재훈련을 하고 있지만 새 모델 버전에 맞게 새로 계산된 기준으로 모델 레지스트리의 |
False / True |
드리프트 검사는 기존 기준을 기준으로 실행됩니다. | 단계를 실행하여 계산된 새 기준 | 단계를 실행하여 새로 계산된 기준 (속성 값 CalculatedBaseline ) |
특정 유형의 검사에 대해 엔드포인트에서 Amazon SageMaker Model Monitor가 감지한 위반이 있고 이전 기준과 비교하여 이러한 유형의 검사를 건너뛰고 새 모델 버전의 모델 레지스트리 |
True / False |
드리프트 검사 없음 | 실행을 통해 계산된 새 기준 | 모델 레지스트리에서 승인된 최신 모델의 기준 또는 단계 파라미터로 제공된 기준 |
이 동작은 다음과 같은 경우에 발생합니다.
|
True / True |
드리프트 검사 없음 | 단계를 실행하여 계산된 새 기준 | 단계를 실행하여 새로 계산된 기준 (속성 값 CalculatedBaseline ) |
참고
제약 조건에 과학적 표기법을 사용하는 경우 플로트로 변환해야 합니다. 이렇게 하는 방법의 전처리 스크립트 예제는 모델 품질 기준 생성을 참조하세요.
모델 단계에 모델을 등록할 때 BaselineUsedForDriftCheck
속성을 DriftCheckBaselines
으로 등록할 수 있습니다. 그러면 Model Monitor에서 모델 및 데이터 품질 검사에 이러한 기준 파일을 사용할 수 있습니다. 또한 ClarifyCheckStep 및 QualityCheck
단계에서 이러한 기준을 사용하여 새로 훈련된 모델을 향후 파이프라인 실행을 위해 모델 레지스트리에 등록된 기존 모델과 비교할 수도 있습니다.
파이프라인의 이전 기준에 대한 드리프트 감지
이 QualityCheck
단계에서 새 모델 버전을 받기 위해 정기적인 재훈련을 위한 파이프라인을 시작할 때 데이터 품질과 데이터 바이어스에 이전 승인된 모델 버전의 기준에 대해 위반에 대한 스키마(constraint_violations.json 파일)이 존재한다면 훈련 단계를 실행하지 않는 것이 좋습니다. 또한 ClarifyCheck
단계를 실행할 때 모델 품질, 모델 바이어스 또는 모델 설명 가능성이 이전에 승인된 모델 버전의 등록된 기준을 위반하는 경우 새로 훈련된 모델 버전을 등록하지 않는 것이 좋습니다. 이러한 경우, 해당 검사 단계 세트의 skip_check
속성을 False
로 설정하여 원하는 검사를 활성화할 수 있으며, 이전 기준에 대한 위반이 감지되면 ClarifyCheck
및 QualityCheck
단계가 실패하게 됩니다. 그러면 파이프라인 프로세스가 진행되지 않아 기준에서 벗어난 모델이 등록되지 않습니다. 또한 ClarifyCheck
, QualityCheck
단계를 통해 특정 모델 패키지 그룹의 승인된 최신 모델 버전의 DriftCheckBaselines
을 가져와 비교할 수 있습니다. 이전 기준은 supplied_baseline_constraints
를 통해(QualityCheck
단계가 있는 경우 supplied_baseline_statistics
에 추가하여) 직접 제공할 수도 있으며, 이전 기준은 항상 모델 패키지 그룹에서 가져온 기준보다 우선 순위가 지정됩니다.
파이프라인을 사용한 기준 및 모델 버전 수명 주기 및 진화
ClarifyCheck
및 QualityCheck
단계의 register_new_baseline
을 False
로 설정하면 단계 속성 접두사 BaselineUsedForDriftCheck
을 통해 이전 기준에 액세스할 수 있습니다. 그러면 모델을 모델 단계에 등록할 때 이러한 기준을 새 모델 버전의 DriftCheckBaselines
으로 등록할 수 있습니다. 모델 레지스트리에서 이 새 모델 버전을 승인하면 이 모델의 버전의 DriftCheckBaseline
을 다음 파이프라인 프로세스의 ClarifyCheck
및 QualityCheck
단계에서 사용할 수 있게 됩니다. 향후 모델 버전을 위해 특정 검사 유형의 기준을 새로 고치려는 경우 BaselineUsedForDriftCheck
접두사가 있는 속성이 새로 계산된 기준이 되도록 register_new_baseline
을 True
로 설정할 수 있습니다. 이러한 방식으로 향후 훈련된 모델에 대해 선호하는 기준을 보존하거나, 필요할 때 드리프트 검사의 기준을 새로 고쳐 모델 트레이닝 반복 전반에 걸친 기준 진화 및 라이프사이클을 관리할 수 있습니다.
다음 다이어그램은 기준 진화 및 수명 주기에 대한 보기를 보여줍니다 model-version-centric.