Amazon SageMaker AI의 추론 옵션

SageMaker AI는 워크로드에 가장 적합한 옵션을 선택할 수 있도록 여러 추론 옵션을 제공합니다.

실시간 추론: 실시간 추론은 지연 시간이 짧거나 처리량 요구 사항이 높은 온라인 추론에 적합합니다. 선택한 인스턴스 유형을 기반으로 지속적인 트래픽을 처리할 수 있는 지속적인 완전관리형 엔드포인트(REST API)에는 실시간 추론을 적용합니다. 실시간 추론은 최대 25MB의 페이로드 크기와 일반 응답의 경우 60초, 스트리밍 응답의 경우 8분의 처리 시간을 지원할 수 있습니다.
서버리스 추론: 서버리스 추론은 트래픽 패턴이 간헐적이거나 예측할 수 없는 경우에 적합합니다. SageMaker AI는 모든 기본 인프라를 관리하므로 인스턴스 또는 조정 정책을 관리할 필요가 없습니다. 사용한 만큼만 지불하면 되고 유휴 시간에 대해서는 비용을 지불하지 않습니다. 최대 4MB의 페이로드 크기와 최장 60초의 처리 시간을 지원할 수 있습니다.
일괄 변환: 일괄 변환은 대량의 데이터를 미리 사용할 수 있고 지속성 엔드포인트가 필요하지 않은 오프라인 처리에 적합합니다. 또한 데이터세트를 사전 처리할 때도 일괄 변환을 적용할 수 있습니다. 크기가 GB 단위이고 처리 시간이 일 단위인 대규모 데이터세트를 지원할 수 있습니다.
비동기식 추론: 비동기식 추론은 요청을 대기열에 넣고 처리 시간이 길고 페이로드가 큰 경우에 적합합니다. 비동기식 추론은 최대 1GB의 페이로드와 최장 1시간의 처리 시간을 지원할 수 있습니다. 처리할 요청이 없을 때는 엔드포인트를 0으로 스케일 다운할 수도 있습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

모델 배포 및 추론 가져오기 옵션

고급 엔드포인트 옵션