기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
SageMaker Clative를 사용하여 데이터 및 모델의 편향 및 설명 가능성을 분석하려면 반드시 SageMaker Clalify 처리 작업을 구성해야 합니다. 이 가이드는 처리 작업을 위한 입력 데이터세트 이름, 분석 구성 파일 이름 및 출력 위치를 지정하는 방법을 보여줍니다. 처리 컨테이너, 작업 입력, 출력, 리소스 및 기타 매개변수를 구성하는 데는 두 가지 옵션이 있습니다. SageMaker AI CreateProcessingJob
API를 사용하거나 SageMaker AI Python SDK API SageMaker ClarifyProcessor
,
모든 처리 작업에 공통적인 매개변수에 대한 자세한 내용은 Amazon SageMaker API Reference를 참조하세요.
다음 지침은 CreateProcessingJob
API를 사용하여 SageMaker Calify용 구성의 각 부분을 제공하는 방법을 보여줍니다.
-
다음 코드 예제와 같이 SageMaker Clarify 컨테이너 이미지의 통합 자원 식별자(URI)를
AppSpecification
매개변수 내에 입력합니다.{ "ImageUri": "
the-clarify-container-image-uri
" }참고
URI는 사전 구축된 SageMaker Clarify 컨테이너 이미지를 식별해야 하며,
ContainerEntrypoint
및ContainerArguments
는 지원되지 않습니다. SageMaker Clarify에 대한 자세한 내용은 사전 구축된 SageMaker Clarify 컨테이너 섹션을 참고하세요. -
분석을 위한 구성과
ProcessingInputs
매개변수 내에 있는 입력 데이터세트의 매개변수를 모두 지정합니다.-
편향 분석 및 설명 가능성 분석을 위한 매개변수가 포함된 JSON 분석 구성 파일의 위치를 지정합니다.
ProcessingInput
객체의InputName
매개변수는 다음 코드 예제에 표시된 것처럼 반드시analysis_config
여야 합니다.{ "InputName": "analysis_config", "S3Input": { "S3Uri": "
s3://your-bucket/analysis_config.json
", "S3DataType": "S3Prefix", "S3InputMode": "File", "LocalPath": "/opt/ml/processing/input/config
" } }분석 구성 파일의 스키마에 대한 자세한 내용은 분석 구성 파일 섹션을 참조하세요.
-
입력 데이터세트의 위치를 지정하세요.
ProcessingInput
객체의InputName
매개변수는 반드시dataset
이어야 합니다. 사용자가 분석 구성 파일에 “dataset_uri”를 제공한 경우, 이 매개변수는 선택사항입니다.S3Input
구성에는 다음 값이 필요합니다.-
S3Uri
의 경우 Amazon S3 객체 또는 S3 접두사일 수 있습니다. -
S3InputMode
는File
유형이어야 합니다. -
S3CompressionType
은None
유형(기본값)이어야 합니다. -
S3DataDistributionType
은FullyReplicated
유형(기본값)이어야 합니다. -
S3DataType
은S3Prefix
또는ManifestFile
일 수 있습니다.ManifestFile
을 사용하려면, SageMaker API 레퍼런스 섹션 S3Uri의 스키마를 따르는 매니페스트 파일의 위치를S3Uri
매개변수가 지정해야 합니다. 이 매니페스트 파일은 해당 작업의 입력 데이터를 포함하고 있는 S3 객체를 나열해야 합니다.
다음 코드는 입력 구성의 예제를 보여줍니다.
{ "InputName": "dataset", "S3Input": { "S3Uri": "
s3://your-bucket/your-dataset.csv
", "S3DataType": "S3Prefix", "S3InputMode": "File", "LocalPath": "/opt/ml/processing/input/data
" } } -
-
-
ProcessingOutputConfig
매개변수 내에서 해당 처리 작업의 출력을 위한 구성을 지정합니다.Outputs
구성에는 단일ProcessingOutput
객체가 필요합니다. 출력 구성에는 다음 값이 필요합니다.-
OutputName
은analysis_result
여야 합니다. -
S3Uri
는 출력 위치에 대한 S3 접두사여야 합니다. -
S3UploadMode
를EndOfJob
로 설정해야 합니다.
다음 코드는 출력 구성의 예제를 보여줍니다.
{ "Outputs": [{ "OutputName": "analysis_result", "S3Output": { "S3Uri": "
s3://your-bucket/result/
", "S3UploadMode": "EndOfJob", "LocalPath": "/opt/ml/processing/output
" } }] } -
-
ProcessingResources
매개변수 내에서 해당 처리 작업에 사용되는 리소스를 위한 구성ClusterConfig
를 지정합니다.ClusterConfig
객체 내에는 다음 매개변수가 필요합니다.-
InstanceCount
는 해당 처리 작업을 실행하는 클러스터 내부의 컴퓨팅 인스턴스 수를 지정합니다. 분산 처리 작업을 활성화하려면1
보다 큰 값을 지정하세요. -
InstanceType
은 해당 처리 작업을 실행하는 리소스를 나타냅니다. SageMaker AI SHAP 분석은 컴퓨팅 집약적이므로 컴퓨팅에 최적화된 인스턴스 유형을 사용하면 분석 런타임이 향상됩니다. SageMaker Clarify 처리 작업은 GPU를 사용하지 않습니다.
다음 코드는 리소스 구성의 예제를 보여줍니다.
{ "ClusterConfig": { "InstanceCount":
1
, "InstanceType": "ml.m5.xlarge
", "VolumeSizeInGB":20
} } -
-
NetworkConfig
객체 내에서 해당 처리 작업에 사용되는 네트워크의 구성을 지정합니다. 해당 구성에는 다음 값이 필요합니다.-
예측에 필요한 경우 SageMaker Clarify가 예측을 위해 엔드포인트를 호출할 수 있게 하려면
EnableNetworkIsolation
은False
(기본값)로 설정되어 있어야 합니다. -
사용자가 SageMaker Clarify 작업에 제공한 모델 또는 엔드포인트가 Amazon Virtual Private Cloud(Amazon VPC) 내에 있는 경우, SageMaker Clarify 작업 역시 동일한 VPC에 있어야 합니다. VpcConfig를 사용하여 VPC를 지정합니다. 또한 VPC에는 Amazon S3 버킷, SageMaker AI 서비스 및 SageMaker AI 런타임 서비스에 대한 엔드포인트가 있어야 합니다.
분산 처리가 활성화된 경우, 동일한 처리 작업에서 서로 다른 인스턴스 간 통신도 필수적으로 허용해야 합니다. 동일한 보안 그룹의 구성원 간 인바운드 연결을 허용하는 보안 그룹 규칙을 구성합니다. 자세한 내용은 Amazon SageMaker Clarify 작업에 Amazon VPC의 리소스에 대한 액세스 권한 부여 단원을 참조하십시오.
다음 코드는 네트워크 구성의 예제를 제공합니다.
{ "EnableNetworkIsolation": False, "VpcConfig": { ... } }
-
-
StoppingCondition
매개변수를 사용하여 작업이 실행되는 최대 시간을 설정합니다. SageMaker Clarify 작업을 실행할 수 있는 가장 긴 시간은7
일 또는604800
초입니다. 이 제한 시간 이내에 작업을 완료할 수 없는 경우에는 작업이 중지되고, 분석 결과도 제공되지 않습니다. 예를 들어, 다음 구성은 작업을 실행할 수 있는 최대 시간을 3600초로 제한합니다.{ "MaxRuntimeInSeconds": 3600 }
-
RoleArn
매개변수를 위한 IAM 역할을 지정합니다. 역할은 Amazon SageMaker AI와 신뢰 관계가 있어야 합니다. 이는 다음 테이블에 나열된 SageMaker API 작업을 수행하는 데 사용될 수 있습니다. Amazon SageMaker SageMaker SageMaker AIFullAccess 관리형 정책을 사용하는 것이 좋습니다. 이 정책에 대한 자세한 내용은 AWS 관리형 정책: AmazonSageMakerFullAccess 섹션을 참조하세요. 전체 액세스 권한 부여 시 우려사항이 있는 경우, 필요한 최소 권한은 사용자가 모델 이름을 제공하는지 엔드포인트 이름을 제공하는지에 따라 달라집니다. 엔드포인트 이름을 사용하면 SageMaker AI에 더 적은 권한을 부여할 수 있습니다.다음 표에는 SageMaker Clarify 처리 작업에서 사용하는 API 작업들이 나와 있습니다. 모델 이름 및 엔드포인트 이름 열 아래에 표시된
X
는 각 입력을 위해 요구되는 API 작업을 의미합니다.API 작업 모델 이름 엔드포인트 이름 사용 용도 X
작업의 태그가 섀도우 엔드포인트에 적용됩니다.
X
사용자가 제공한 모델 이름을 사용하여 엔드포인트 구성을 생성함
X
엔드포인트 구성을 사용하여 섀도우 엔드포인트를 생성함
X
X
엔드포인트의 현재 상태를 설명하며, 요청 처리 시 엔드포인트가 InService여야 함
X
X
예측을 위해 엔드포인트를 호출함
필요한 권한에 대한 자세한 내용은 Amazon SageMaker AI API 권한: 작업, 권한 및 리소스 참조 섹션을 참조하세요.
SageMaker AI에 역할을 전달하는 방법에 대한 자세한 내용은 섹션을 참조하세요역할 전달.
처리 작업 구성의 개별적인 부분들이 완료되면, 이를 모두 결합하여 작업을 구성하세요.
다음 코드 예제는 AWS Python용 SDK
sagemaker_client.create_processing_job( ProcessingJobName="
your-clarify-job-name
", AppSpecification={ "ImageUri": "the-clarify-container-image-uri
", }, ProcessingInputs=[{ "InputName": "analysis_config", "S3Input": { "S3Uri": "s3://your-bucket/analysis_config.json
", "S3DataType": "S3Prefix", "S3InputMode": "File", "LocalPath": "/opt/ml/processing/input/config
", }, }, { "InputName": "dataset", "S3Input": { "S3Uri": "s3://your-bucket/your-dataset.csv
", "S3DataType": "S3Prefix", "S3InputMode": "File", "LocalPath": "/opt/ml/processing/input/data
", }, }, ], ProcessingOutputConfig={ "Outputs": [{ "OutputName": "analysis_result", "S3Output": { "S3Uri": "s3://your-bucket/result/
", "S3UploadMode": "EndOfJob", "LocalPath": "/opt/ml/processing/output
", }, }], }, ProcessingResources={ "ClusterConfig": { "InstanceCount":1
, "InstanceType": "ml.m5.xlarge
", "VolumeSizeInGB":20
, }, }, NetworkConfig={ "EnableNetworkIsolation": False, "VpcConfig": { ... }, }, StoppingCondition={ "MaxRuntimeInSeconds":3600
, }, RoleArn="arn:aws:iam::<your-account-id>:role/service-role/AmazonSageMaker-ExecutionRole
", )
AWS SDK for Python을 사용하여 SageMaker Clarify 처리 작업을 실행하기 위한 지침이 포함된 예제 노트북은 AWS SDK for Python을 사용하여 SageMaker Clarify를 사용한 공정성 및 설명 가능성을
SageMaker Python SDK API에서 SageMaker ClarifyProcessor