기준 생성

데이터 드리프트 및 기타 데이터 품질 문제를 감지할 수 있는 기준이 되는 표준으로 통계 및 제약 조건의 기준 계산이 필요합니다. Model Monitor는 기본 제공 컨테이너를 제공하여 입력에 대한 제약 조건을 자동으로 CSV 제안하고 플랫 JSON 입력을 수행할 수 있는 기능을 제공합니다. 또한 이 sagemaker-model-monitor-analyzer컨테이너는 베이스라인에 대한 제약 조건 검증, Amazon CloudWatch 지표 생성 등 다양한 모델 모니터링 기능을 제공합니다. 이 컨테이너는 Spark 버전 3.3.0을 기반으로 하며 Deequ 버전 2.0.2를 사용하여 구축되었습니다. 기준 데이터 세트의 모든 열 이름은 Spark와 호환되어야 합니다. 열 이름의 경우 소문자만 사용하고 특수 문자로는 _만 사용하세요.

모델을 훈련하는 데 사용한 훈련 데이터 세트는 일반적으로 좋은 기준 데이터 세트입니다. 훈련 데이터 세트의 데이터 스키마와 추론 데이터 세트 스키마는 정확히 일치해야 합니다(기능의 수와 순서). 예측/출력 열(들)은 훈련 데이터 세트의 첫 번째 열로 간주됩니다. 교육 데이터세트에서 기준 제약 조건 세트를 제안하고 데이터를 SageMaker 탐색하기 위한 설명 통계를 생성하도록 요청할 수 있습니다. 이 예시의 경우 이 예시에 포함된 사전 훈련된 모델을 훈련하는 데 사용된 훈련 데이터 세트를 업로드합니다. Amazon S3에 훈련 데이터 세트를 이미 저장한 경우 해당 데이터 세트를 직접 가리킬 수 있습니다.

훈련 데이터 세트에서 기준을 생성하려면

교육 데이터를 준비하고 Amazon S3에 저장했으면 Amazon SageMaker SDK Python을 DefaultModelMonitor.suggest_baseline(..) 사용하여 기본 처리 작업을 시작하십시오. Amazon SageMaker 모델 모니터 사전 제작 컨테이너를 사용해 기준 통계를 생성하고, 데이터 세트에 대한 기준 제약 조건을 제안하고, 사용자가 지정한 output_s3_uri위치에 기록합니다.


from sagemaker.model_monitor import DefaultModelMonitor
from sagemaker.model_monitor.dataset_format import DatasetFormat

my_default_monitor = DefaultModelMonitor(
    role=role,
    instance_count=1,
    instance_type='ml.m5.xlarge',
    volume_size_in_gb=20,
    max_runtime_in_seconds=3600,
)

my_default_monitor.suggest_baseline(
    baseline_dataset=baseline_data_uri+'/training-dataset-with-header.csv',
    dataset_format=DatasetFormat.csv(header=True),
    output_s3_uri=baseline_results_uri,
    wait=True
)

참고

교육 데이터세트의 기능/열 이름을 첫 번째 행으로 제공하고 이전 코드 샘플에 표시된 대로 header=True 옵션을 설정하면 제약 조건 및 통계 파일의 기능 이름이 SageMaker 사용됩니다.

데이터 세트에 대한 기준 통계는 statistics s.json 파일에 포함되어 있으며, 제안된 기준 제약 조건은 output_s3_uri에서 지정한 위치의 constraints.json 파일에 포함되어 있습니다.

테이블 형식 데이터 세트 통계 및 제약 조건의 출력 파일

파일 이름	설명
`statistics.json`	이 파일에는 분석되는 데이터 세트의 각 기능에 대한 열 기반 통계가 있어야 합니다. 이 파일의 스키마에 대한 자세한 내용은 통계에 대한 스키마(statistics.json 파일)섹션을 참조하세요.
`constraints.json`	이 파일에는 관찰된 기능에 대한 제약 조건이 있어야 합니다. 이 파일의 스키마에 대한 자세한 내용은 제약 조건에 대한 스키마(constraints.json 파일)섹션을 참조하세요.

Amazon SageMaker SDK Python은 기본 통계 및 제약 조건을 생성하기 위해 설명된 편의 함수를 제공합니다. 하지만 이러한 목적을 위해 직접 처리 작업을 호출하려는 경우에는 다음 예시에서와 같이 Environment맵을 설정해야 합니다.


"Environment": {
    "dataset_format": "{\"csv\”: { \”header\”: true}",
    "dataset_source": "/opt/ml/processing/sm_input",
    "output_path": "/opt/ml/processing/sm_output",
    "publish_cloudwatch_metrics": "Disabled",
}

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

모니터링 데이터 품질

데이터 품질 모니터링 작업 스케줄링