기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
지원되는 기능
SageMaker Amazon은 추론을 위해 모델을 배포하기 위해 다음과 같은 4가지 옵션을 제공합니다.
-
실시간, 대화형, 짧은 지연 시간이 요구되는 추론 워크로드를 위한 실시간 추론.
-
대규모 데이터 세트를 사용한 오프라인 추론을 위한 일괄 변환.
-
전처리 시간이 더 오래 걸리는 입력이 큰 near-real-time 추론을 위한 비동기 추론
-
트래픽 폭주 사이에 유휴 기간이 있는 추론 워크로드를 위한 서버리스 추론.
다음 표에는 각 추론 옵션에서 지원하는 핵심 플랫폼 기능이 요약되어 있습니다. 프레임워크, 사용자 지정 Docker 컨테이너 또는 다양한 AWS 서비스 체인을 통해 제공할 수 있는 기능은 설명하지 않습니다.
기능 | 실시간 추론 | 일괄 변환 | 비동기식 추론 | 서버리스 추론 | Docker 컨테이너 |
---|---|---|---|---|---|
오토스케일링 지원 | ✓ | N/A | ✓ | ✓ | N/A |
GPU 지원 | ✓1 | ✓1 | ✓1 | 1P, 사전 제작, BYOC | |
단일 모델 | ✓ | ✓ | ✓ | ✓ | N/A |
다중 모델 엔드포인트 | ✓ | k-nn, XGBoost, 리니어 러너, RCF, 아파치 MXnet TensorFlow, scikit-Learn 2 PyTorch | |||
다중 컨테이너 엔드포인트 | ✓ | 1P, 사전 구축, 확장 사전 구축, BYOC | |||
직렬 추론 파이프라인 | ✓ | ✓ | 1P, 사전 구축, 확장 사전 구축, BYOC | ||
Inference Recommender | ✓ | 1P, 사전 구축, 확장 사전 구축, BYOC | |||
프라이빗 링크 지원 | ✓ | ✓ | ✓ | N/A | |
데이터 캡처/모델 모니터 지원 | ✓ | ✓ | N/A | ||
DLC 지원됨 |
1P, 사전 구축, 확장 사전 구축, BYOC | 1P, 사전 구축, 확장 사전 구축, BYOC | 1P, 사전 구축, 확장 사전 구축, BYOC | 1P, 사전 구축, 확장 사전 구축, BYOC | N/A |
프로토콜 지원됨 | HTTP(S) | HTTP(S) | HTTP(S) | HTTP(S) | N/A |
페이로드 크기 | < 6 MB | ≤ 100 MB | ≤ 1 GB | ≤ 4 MB | |
HTTP 청크 인코딩 | 프레임워크에 따라 다름, 1P는 지원되지 않음 | N/A | 프레임워크에 따라 다름, 1P는 지원되지 않음 | 프레임워크에 따라 다름, 1P는 지원되지 않음 | N/A |
요청 제한 시간 | < 60초 | 일 | < 1시간 | < 60초 | N/A |
배포 가드레일: 블루/그린 배포 | ✓ | N/A | ✓ | N/A | |
배포 가드레일: 롤링 배포 | ✓ | N/A | ✓ | N/A | |
섀도우 테스트 | ✓ | N/A | |||
Scale to zero | N/A | ✓ | ✓ | N/A | |
마켓플레이스 모델 패키지 지원 | ✓ | ✓ | N/A | ||
가상 사설 클라우드 지원 | ✓ | ✓ | ✓ | N/A | |
다양한 프로덕션 변형 지원 | ✓ | N/A | |||
네트워크 격리 | ✓ | ✓ | N/A | ||
모델 병렬 서빙 지원 | ✓3 | ✓ | ✓3 | ✓3 | |
볼륨 암호화 | ✓ | ✓ | ✓ | ✓ | N/A |
고객 AWS KMS | ✓ | ✓ | ✓ | ✓ | N/A |
d 인스턴스 지원 | ✓ | ✓ | ✓ | N/A | |
inf1 지원 | ✓ | ✓ |
를 사용하면 단일 추론 엔드포인트 뒤에 단일 모델 또는 여러 모델을 배포하여 실시간 추론을 수행할 수 있습니다. SageMaker 다음 표에는 실시간 추론과 함께 제공되는 다양한 호스팅 옵션이 지원하는 핵심 기능이 요약되어 있습니다.
기능 | 단일 모델 엔드포인트 | 다중 모델 엔드포인트 | 직렬 추론 파이프라인 | 다중 컨테이너 엔드포인트 |
---|---|---|---|---|
오토스케일링 지원 | ✓ | ✓ | ✓ | ✓ |
GPU 지원 | ✓1 | ✓ | ✓ | |
단일 모델 | ✓ | ✓ | ✓ | ✓ |
다중 모델 엔드포인트 | ✓ | ✓ | N/A | |
다중 컨테이너 엔드포인트 | ✓ | N/A | ||
직렬 추론 파이프라인 | ✓ | ✓ | N/A | |
Inference Recommender | ✓ | |||
프라이빗 링크 지원 | ✓ | ✓ | ✓ | ✓ |
데이터 캡처/모델 모니터 지원 | ✓ | N/A | 해당 사항 없음 | N/A |
DLC 지원됨 | 1P, 사전 구축, 확장 사전 구축, BYOC | k-nn, XGBoost, 리니어 러너, RCF, 아파치 MXnet TensorFlow, scikit-Learn 2 PyTorch | 1P, 사전 구축, 확장 사전 구축, BYOC | 1P, 사전 구축, 확장 사전 구축, BYOC |
프로토콜 지원됨 | HTTP(S) | HTTP(S) | HTTP(S) | HTTP(S) |
페이로드 크기 | < 6 MB | < 6 MB | < 6 MB | < 6 MB |
요청 제한 시간 | < 60초 | < 60초 | < 60초 | < 60초 |
배포 가드레일: 블루/그린 배포 | ✓ | ✓ | ✓ | ✓ |
배포 가드레일: 롤링 배포 | ✓ | ✓ | ✓ | ✓ |
섀도우 테스트 | ✓ | |||
마켓플레이스 모델 패키지 지원 | ✓ | |||
가상 사설 클라우드 지원 | ✓ | ✓ | ✓ | ✓ |
다양한 프로덕션 변형 지원 | ✓ | ✓ | ✓ | |
네트워크 격리 | ✓ | ✓ | ✓ | ✓ |
모델 병렬 서빙 지원 | ✓ 3 | ✓ 3 | ||
볼륨 암호화 | ✓ | ✓ | ✓ | ✓ |
고객 AWS KMS | ✓ | ✓ | ✓ | ✓ |
d 인스턴스 지원 | ✓ | ✓ | ✓ | ✓ |
inf1 지원 | ✓ |
1 Amazon EC2 인스턴스 유형의 가용성은 지역에 따라 AWS 다릅니다. 특정 인스턴스의 가용성은 Amazon SageMaker 요금을
2 다른 프레임워크 또는 알고리즘을 사용하려면 SageMaker 추론 툴킷을 사용하여 다중 모델 엔드포인트를 지원하는 컨테이너를 구축하십시오.
3 를 사용하면 SageMaker 추론을 위해 대형 모델 (최대 500GB) 을 배포할 수 있습니다. 컨테이너 상태 점검을 구성하고 타임아웃 할당량을 최대 60분까지 다운로드할 수 있습니다. 이렇게 하면 모델 및 관련 리소스를 다운로드하고 로드하는 데 더 많은 시간을 할애할 수 있습니다. 자세한 정보는 SageMaker 대형 모델 추론을 위한 끝점 매개변수을 참조하세요. SageMaker 호환되는 대형 모델 추론