기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
SageMaker AI는 워크로드에 가장 적합한 옵션을 선택할 수 있도록 여러 추론 옵션을 제공합니다.
-
실시간 추론: 실시간 추론은 지연 시간이 짧거나 처리량 요구 사항이 높은 온라인 추론에 적합합니다. 선택한 인스턴스 유형을 기반으로 지속적인 트래픽을 처리할 수 있는 지속적인 완전관리형 엔드포인트(REST API)에는 실시간 추론을 적용합니다. 실시간 추론은 최대 6MB의 페이로드 크기와 최장 60초의 처리 시간을 지원할 수 있습니다.
-
서버리스 추론: 서버리스 추론은 트래픽 패턴이 간헐적이거나 예측할 수 없는 경우에 적합합니다. SageMaker AI는 모든 기본 인프라를 관리하므로 인스턴스 또는 조정 정책을 관리할 필요가 없습니다. 사용한 만큼만 지불하면 되고 유휴 시간에 대해서는 비용을 지불하지 않습니다. 최대 4MB의 페이로드 크기와 최장 60초의 처리 시간을 지원할 수 있습니다.
-
일괄 변환: 일괄 변환은 대량의 데이터를 미리 사용할 수 있고 지속성 엔드포인트가 필요하지 않은 오프라인 처리에 적합합니다. 또한 데이터세트를 사전 처리할 때도 일괄 변환을 적용할 수 있습니다. 크기가 GB 단위이고 처리 시간이 일 단위인 대규모 데이터세트를 지원할 수 있습니다.
-
비동기식 추론: 비동기식 추론은 요청을 대기열에 넣고 처리 시간이 길고 페이로드가 큰 경우에 적합합니다. 비동기식 추론은 최대 1GB의 페이로드와 최장 1시간의 처리 시간을 지원할 수 있습니다. 처리할 요청이 없을 때는 엔드포인트를 0으로 스케일 다운할 수도 있습니다.
다음 다이어그램에서 이전 정보를 순서도로 보고 사용 사례에 가장 적합한 옵션을 선택할 수 있습니다.
