비동기 추론

Amazon SageMaker 비동기 추론은 수신 요청을 대기열에 넣고 비동기적으로 처리하는 SageMaker AI의 기능입니다. 이 옵션은 페이로드 크기가 크고(최대 1GB), 처리 시간이 길며(최대 1시간), 거의 실시간에 가까운 지연 시간이 필요한 요건에 적합합니다. 비동기 추론을 사용하면 처리할 요청이 없을 때 인스턴스 수를 0으로 오토 스케일링하여 비용을 절감할 수 있으므로 엔드포인트가 요청을 처리할 때만 비용을 지불할 수 있습니다.

작동 방식

비동기 추론 엔드포인트를 만드는 것은 실시간 추론 엔드포인트를 만드는 것과 비슷합니다. 기존 SageMaker AI 모델을 사용할 수 있으며 CreateEndpointConfig API의 EndpointConfig 필드를 사용하여 엔드포인트 구성을 생성하는 동안 AsyncInferenceConfig 객체만 지정하면 됩니다. 다음 다이어그램은 비동기 추론의 아키텍처 및 워크플로우입니다.

사용자가 엔드포인트를 호출하는 방식을 보여주는 비동기 추론에 대한 아키텍처 다이어그램입니다.

엔드포인트를 호출하려면 Amazon S3에 요청 페이로드를 배치해야 합니다. 또한 InvokeEndpointAsync 요청의 일부로 이 페이로드에 포인터를 제공해야 합니다. 호출 시 SageMaker AI는 처리 요청을 대기열에 넣고 식별자와 출력 위치를 응답으로 반환합니다. 처리 시 SageMaker AI는 결과를 Amazon S3 위치에 배치합니다. Amazon SNS를 통해 성공 또는 오류 알림을 수신하도록 선택할 수도 있습니다. 비동기 알림을 설정하는 방법에 대한 자세한 내용은 예측 결과 검사 섹션을 참조하세요.

참고

엔드포인트 구성에 비동기 추론 구성(AsyncInferenceConfig) 객체가 있다는 것은 엔드포인트가 비동기 호출만 수신할 수 있다는 것을 의미합니다.

어떻게 시작할 수 있습니까?

Amazon SageMaker 비동기 추론을 처음 사용한다면 다음과 같이 할 것을 권장합니다.

비동기 엔드포인트를 생성, 호출, 업데이트, 삭제하는 방법에 대한 자세한 내용은 비동기 엔드포인트 작업을 참조하세요.
aws/amazon-sagemaker-examples GitHub 리포지토리에서 비동기 추론 예제 노트북을 살펴보세요.

참고로 엔드포인트가 이 제외 페이지에 나열된 기능 중 하나를 사용하는 경우 비동기 추론을 사용할 수 없습니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

문제 해결

비동기 엔드포인트 작업