제약 조건에 대한 스키마(constraints.json 파일) - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

제약 조건에 대한 스키마(constraints.json 파일)

constraints.json 파일은 데이터 세트가 반드시 충족해야 하는 제약 조건을 표현하는 데 사용됩니다. Amazon SageMaker 모델 모니터 컨테이너는 constraints.json 파일을 사용하여 데이터세트를 평가할 수 있습니다. 사전 구축된 컨테이너는 기준 데이터 세트에 대한 constraints.json 파일을 자동으로 생성해주는 기능을 제공합니다. 자체 컨테이너를 사용하는 경우, 비슷한 기능을 제공하거나 기타 몇 가지 방법으로 containints.json 파일을 생성할 수 있습니다. 다음은 미리 빌드 컨테이너가 사용하는 제약 조건 파일의 스키마입니다. 자체 컨테이너를 사용하면 동일한 형식을 채택하거나 필요에 따라 형식을 개선할 수 있습니다.

{ "version": 0, "features": [ { "name": "string", "inferred_type": "Integral" | "Fractional" | | "String" | "Unknown", "completeness": number, "num_constraints": { "is_non_negative": boolean }, "string_constraints": { "domains": [ "list of", "observed values", "for small cardinality" ] }, "monitoringConfigOverrides": {} } ], "monitoring_config": { "evaluate_constraints": "Enabled", "emit_metrics": "Enabled", "datatype_check_threshold": 0.1, "domain_content_threshold": 0.1, "distribution_constraints": { "perform_comparison": "Enabled", "comparison_threshold": 0.1, "comparison_method": "Simple"||"Robust", "categorical_comparison_threshold": 0.1, "categorical_drift_method": "LInfinity"||"ChiSquared" } } }

monitoring_config 객체에는 특징에 대한 작업을 모니터링하는 옵션이 포함되어 있습니다. 다음 표에 각 옵션이 설명되어 있습니다.

모니터링 제약 조건
Constraint 설명
evaluate_constraints

Enabled일 때 분석 중인 현재 데이터 세트가 기준으로 간주되는 constraints.json 파일에 지정된 제약 조건을 충족하는지 여부를 평가합니다.

유효한 값: Enabled또는 Disabled

기본값: Enabled

emit_metrics

Enabled인 경우 파일에 포함된 데이터에 대한 CloudWatch 지표를 내보냅니다.

유효한 값: Enabled또는 Disabled

기본값: Enabled

datatype_check_threshold

임계값이 지정된 datatype_check_threshold보다 높으면 위반 보고서에서 위반으로 처리되는 오류가 발생합니다. 현재 실행의 데이터 유형이 기준 데이터 세트의 데이터 유형과 다를 경우 이 임계값을 사용하여 위반으로 플래그를 지정해야 하는지 여부를 평가합니다.

기준 단계 동안 생성된 제약 조건은 각 열에 대해 추론된 데이터 유형을 제안합니다. 위반으로 플래그가 지정된 경우 임계값을 조정하도록 datatype_check_threshold파라미터를 튜닝할 수 있습니다.

유효한 값: 부동 소수점

기본값: 0.1

domain_content_threshold

현재 데이터 세트의 문자열 필드에서 알 수 없는 값이 기준 데이터 세트보다 더 많은 경우 이 임계값을 사용하여 위반으로 플래그를 지정해야 하는지 여부를 지정할 수 있습니다.

유효한 값: 부동 소수점

기본값: 0.1

distribution_constraints perform_comparison

Enabled의 경우, 이 플래그는 기준 분포와 현재 데이터 세트에서 관찰된 분포 간의 분포 비교를 수행하도록 코드에 명령합니다.

유효한 값: Enabled또는 Disabled

기본값: Enabled

comparison_threshold

임계값이 comparison_threshold에 대해 설정된 값보다 높으면 위반 보고서에서 위반으로 처리되는 오류가 발생합니다. 거리는 두 분포의 누적 분포 함수 간의 최대 절대 차이를 구하여 계산됩니다.

유효한 값: 부동 소수점

기본값: 0.1

comparison_method

linf_simple 또는 linf_robust를 계산할지 여부. linf_simple은 두 분포의 누적 분포 함수 간의 최대 절대 차이를 기반으로 합니다. linf_robust 계산은 linf_simple을 토대로 하지만, 샘플이 충분하지 않을 때 사용됩니다. linf_robust 공식은 2-샘플 Kolmogorov-Smirnov 테스트를 기반으로 합니다.

유효한 값: linf_simple또는 linf_robust

categorical_comparison_threshold

선택 사항입니다. 범주형 특징에 대한 임계값을 설정합니다. 데이터 세트의 값이 사용자가 설정한 임계값을 초과하는 경우 위반 보고서에 위반 사항이 기록됩니다.

유효한 값: 부동 소수점

기본값: comparison_threshold매개변수에 할당된 값

categorical_drift_method

선택 사항입니다. 범주형 특징인 경우, 분포 드리프트를 탐지하는 데 사용되는 계산 메서드를 지정합니다. 사용자가 이 매개변수를 설정하지 않으면 K-S (LinFinity) 테스트가 사용됩니다.

유효한 값: LInfinity또는 ChiSquared

기본값: LInfinity