Amazon을 사용한 추론을 위한 배치 변환 SageMaker - Amazon SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon을 사용한 추론을 위한 배치 변환 SageMaker

다음 작업이 필요할 때 배치 변환을 사용합니다.

  • 데이터 세트를 사전 처리하여 데이터 세트에서 훈련 또는 추론을 방해하는 노이즈 또는 바이어스를 제거합니다.

  • 대규모 데이터 세트에서 추론을 가져옵니다.

  • 영구 엔드포인트가 필요하지 않을 경우 추론을 실행합니다.

  • 결과 해석에 도움이 되도록 입력 레코드를 추론과 연결합니다.

추론을 수행하기 전에 입력 데이터를 필터링하거나 입력 레코드를 해당 레코드에 대한 추론과 연결하려면 예측 결과를 입력 레코드에 연결을 참조합니다. 예를 들어, 입력 데이터를 필터링하여 출력 데이터에 대한 보고서를 생성 및 해석하기 위한 컨텍스트를 제공할 수 있습니다.

배치 변환을 사용하여 대규모 데이터 세트에서 추론 가져오기

배치 변환은 대규모 데이터 세트의 처리를 지정된 파라미터 제한 내에서 자동으로 관리합니다. 예를 들어 S3 버킷에 데이터 세트 파일input1.csv인 가 저장되어 있습니다. 입력 파일의 내용은 모양이 다음 예제와 같을 수 있습니다.

Record1-Attribute1, Record1-Attribute2, Record1-Attribute3, ..., Record1-AttributeM Record2-Attribute1, Record2-Attribute2, Record2-Attribute3, ..., Record2-AttributeM Record3-Attribute1, Record3-Attribute2, Record3-Attribute3, ..., Record3-AttributeM ... RecordN-Attribute1, RecordN-Attribute2, RecordN-Attribute3, ..., RecordN-AttributeM

배치 변환 작업이 시작되면 는 컴퓨팅 인스턴스를 SageMaker 시작하고 인스턴스 간에 추론 또는 사전 처리 워크로드를 분산합니다. 배치 변환 파티션은 입력에 있는 Amazon S3 객체를 키로 분할하고 Amazon S3 객체를 인스턴스에 매핑합니다. 파일이 여러 개라면 한 인스턴스는 input1.csv를 처리하고, 다른 인스턴스는 이름이 input2.csv인 파일을 처리할 수 있습니다. 하나의 입력 파일이 있지만 여러 컴퓨팅 인스턴스를 초기화하는 경우 하나의 인스턴스만 입력 파일을 처리합니다. 나머지 인스턴스는 유휴 상태입니다.

입력 파일을 미니 배치로 분할할 수도 있습니다. 예를 들어 레코드 두 개만 포함시켜 input1.csv에서 미니 배치를 생성할 수 있습니다.

Record3-Attribute1, Record3-Attribute2, Record3-Attribute3, ..., Record3-AttributeM Record4-Attribute1, Record4-Attribute2, Record4-Attribute3, ..., Record4-AttributeM
참고

SageMaker 는 각 입력 파일을 별도로 처리합니다. MaxPayloadInMB 제한을 준수하기 위해 다른 입력 파일에서 분할된 미니 배치를 결합하지 않습니다.

배치 변환 작업을 생성할 때 입력 파일을 미니 배치로 분할하려면 다음과 같은 경우 SplitType 파라미터 값을 로 설정합니다Line. 단일 요청에서 전체 입력 파일을 SageMaker 사용합니다.

  • SplitTypeNone(으)로 설정합니다.

  • 입력 파일은 미니 배치로 분할할 수 없습니다.

. 배치 변환은 포함된 새 줄 문자가 포함된 CSV형식 입력을 지원하지 않습니다. BatchStrategyMaxPayloadInMB 파라미터를 사용하여 미니 배치의 크기를 제어할 수 있습니다. MaxPayloadInMB는 100MB를 초과할 수 없습니다. 선택적 MaxConcurrentTransforms 파라미터를 지정하는 경우, (MaxConcurrentTransforms * MaxPayloadInMB)의 값도 100MB를 초과할 수 없습니다.

배치 변환 작업이 입력 파일의 모든 레코드를 성공적으로 처리하면 출력 파일이 생성됩니다. 출력 파일의 이름과 .out 파일 확장자는 동일합니다. input1.csvinput2.csv와 같은 여러 입력 파일의 경우 출력 파일의 이름은 input1.csv.outinput2.csv.out입니다. 배치 변환 작업은 s3://amzn-s3-demo-bucket/output/과 같이 Amazon S3에 지정된 위치에 출력 파일을 저장합니다.

출력 파일의 예측은 입력 파일의 해당 레코드와 동일한 순서로 나열됩니다. 앞에 나온 입력 파일을 기반으로 한 출력 파일 input1.csv.out은 모양이 다음과 같을 것입니다.

Inference1-Attribute1, Inference1-Attribute2, Inference1-Attribute3, ..., Inference1-AttributeM Inference2-Attribute1, Inference2-Attribute2, Inference2-Attribute3, ..., Inference2-AttributeM Inference3-Attribute1, Inference3-Attribute2, Inference3-Attribute3, ..., Inference3-AttributeM ... InferenceN-Attribute1, InferenceN-Attribute2, InferenceN-Attribute3, ..., InferenceN-AttributeM

SplitTypeLine으로 설정하면 AssembleWith 파라미터를 Line으로 설정하여 출력 레코드를 줄 구분자와 연결할 수 있습니다. 이렇게 해도 출력 파일 수는 변하지 않습니다. 출력 파일 수는 입력 파일 수와 같으며 AssembleWith를 사용해도 파일이 병합되지 않습니다. AssembleWith 파라미터를 지정하지 않으면 출력 레코드가 기본적으로 바이너리 형식으로 연결됩니다.

입력 데이터가 매우 크고 청크 인코딩을 사용하여 전송되면 알고리즘으로 데이터를 스트리밍하려면 HTTP 를 MaxPayloadInMB로 설정합니다0. Amazon SageMaker 내장 알고리즘은 이 기능을 지원하지 않습니다.

를 사용하여 배치 변환 작업을 생성하는 API 방법에 대한 자세한 내용은 CreateTransformJob 섹션을 참조하세요API. 배치 변환 입력과 출력 객체 간의 관계에 대한 자세한 내용은 섹션을 참조하세요OutputDataConfig. 배치 변환을 사용하는 방법의 예제는 (선택 사항) 배치 변환으로 예측하기 섹션을 참조하세요.

배치 변환 작업 속도 향상

를 사용하는 경우 파라미터에 대한 최적의 값을 사용하여 배치 변환 작업을 완료하는 데 걸리는 시간을 줄일 CreateTransformJob API수 있습니다. 여기에는 MaxPayloadInMB, MaxConcurrentTransforms또는 와 같은 파라미터가 포함됩니다BatchStrategy. MaxConcurrentTransforms의 이상적인 값은 배치 변환 작업의 컴퓨팅 작업자 수와 같습니다.

SageMaker 콘솔을 사용하는 경우 배치 변환 작업 구성 페이지의 추가 구성 섹션에서 이러한 최적의 파라미터 값을 지정합니다. 는 기본 제공 알고리즘에 대한 최적의 파라미터 설정을 SageMaker 자동으로 찾습니다. 사용자 지정 알고리즘의 경우 execution-parameters 엔드포인트를 통해 이러한 값을 제공합니다.

배치 변환을 사용하여 프로덕션 변형 테스트

다른 모델 또는 하이퍼파라미터 설정을 테스트하려면 각 새 모델 변형에 대해 별도의 변환 작업을 생성하고 검증 데이터 세트를 사용합니다. 각 변환 작업의 경우, Amazon S3에서 출력 파일에 대한 고유한 모델 이름과 위치를 지정합니다. 결과를 분석하려면 추론 파이프라인 로그 및 지표을 사용합니다.

배치 변환 샘플 노트북

배치 변환을 사용하는 샘플 노트북은 PCA 및 DBSCAN 영화 클러스터를 사용한 배치 변환을 참조하세요. 이 노트북은 주요 구성 요소 분석(PCA) 모델과 함께 배치 변환을 사용하여 사용자 항목 검토 매트릭스의 데이터를 줄입니다. 그런 다음 노이즈(DBSCAN) 알고리즘이 있는 애플리케이션의 밀도 기반 공간 클러스터링을 적용하여 영화를 클러스터링하는 방법을 보여줍니다.

에서 예제를 실행하는 데 사용할 수 있는 Jupyter 노트북 인스턴스를 생성하고 액세스하는 방법에 대한 지침은 섹션을 SageMaker참조하세요Amazon SageMaker 노트북 인스턴스. 노트북 인스턴스를 생성하고 연 후 SageMaker 예제 탭을 선택하여 모든 SageMaker 예제 목록을 확인합니다. NTM 알고리즘을 사용하는 주제 모델링 예제 노트북은 고급 기능 섹션에 있습니다. 노트북을 열려면 노트북의 사용 탭을 선택하고 복사본 생성을 선택합니다.