기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
합성 데이터세트
SageMaker Clarify는 커널 SHAP 알고리즘을 사용합니다. 레코드(샘플 또는 인스턴스라고도 함)와 SHAP 구성이 주어지면 설명자는 먼저 합성 데이터세트를 생성합니다. 그런 다음 SageMaker Clarify는 데이터세트의 예측을 위해 모델 컨테이너를 쿼리하고, 기능 속성을 계산하여 반환합니다. 합성 데이터세트의 크기는 Clarify의 설명자의 런타임에 영향을 줍니다. 큰 합성 데이터세트는 작은 합성 데이터세트보다 모델 예측을 얻는 데 더 많은 시간이 걸립니다.
합성 데이터세트 크기는 다음 공식에 의해 결정됩니다.
Synthetic dataset size = SHAP baseline size * n_samples
SHAP 기준 크기는 SHAP 기준 데이터에 있는 레코드 수입니다. 이 정보는 ShapBaselineConfig
에서 가져옵니다.
n_samples
의 크기는 설명자 구성의 파라미터 NumberOfSamples
와 기능 수에 따라 설정됩니다. 기능 수가 n_features
면 n_samples
는 다음과 같습니다.
n_samples = MIN(NumberOfSamples, 2^n_features - 2)
다음은 NumberOfSamples
가 제공되지 않는 경우 n_samples
를 보여줍니다.
n_samples = MIN(2*n_features + 2^11, 2^n_features - 2)
예를 들어, 10개의 기능이 있는 테이블 형식 레코드의 SHAP 기준 크기는 1입니다. NumberOfSamples
가 제공되지 않는 경우 합성 데이터세트에는 1022개의 레코드가 포함됩니다. 레코드에 20개의 기능이 있는 경우 합성 데이터세트에는 2088개의 레코드가 포함됩니다.
NLP 문제의 경우 n_features
는 텍스트가 아닌 기능 수에 텍스트 단위 수를 더한 값과 같습니다.
참고
InvokeEndpoint
API에는 요청 제한 시간이 있습니다. 합성 데이터세트가 너무 크면 설명자가 이 한도 내에서 계산을 완료하지 못할 수 있습니다. 필요한 경우 이전 정보를 사용하여 SHAP 기준 크기와 NumberOfSamples
를 이해하고 줄이세요. 모델 컨테이너가 배치 요청을 처리하도록 설정된 경우 MaxRecordCount
값을 조정할 수도 있습니다.