비동기 추론 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

비동기 추론

Amazon SageMaker 비동기 추론은 들어오는 요청을 대기열에 넣고 비동기적으로 처리하는 기능입니다. SageMaker 이 옵션은 페이로드 크기가 크고(최대 1GB), 처리 시간이 길며(최대 1시간), 거의 실시간에 가까운 지연 시간이 필요한 요건에 적합합니다. 비동기 추론을 사용하면 처리할 요청이 없을 때 인스턴스 수를 0으로 오토 스케일링하여 비용을 절감할 수 있으므로 엔드포인트가 요청을 처리할 때만 비용을 지불할 수 있습니다.

작동 방식

비동기 추론 엔드포인트를 만드는 것은 실시간 추론 엔드포인트를 만드는 것과 비슷합니다. 기존 SageMaker 모델을 사용할 수 있으며 API의 필드를 사용하여 엔드포인트 구성을 생성할 때 AsyncInferenceConfig 객체를 지정하기만 하면 됩니다. EndpointConfig CreateEndpointConfig 다음 다이어그램은 비동기 추론의 아키텍처 및 워크플로우입니다.

사용자가 엔드포인트를 호출하는 방식을 보여주는 비동기 추론 아키텍처 다이어그램.

엔드포인트를 호출하려면 Amazon S3에 요청 페이로드를 배치해야 합니다. 또한 요청의 일부로 이 페이로드에 대한 포인터를 제공해야 합니다. InvokeEndpointAsync 호출 시 처리를 위해 요청을 SageMaker 대기열에 넣고 식별자와 출력 위치를 응답으로 반환합니다. 처리 시 SageMaker 결과를 Amazon S3 위치에 배치합니다. Amazon SNS를 통해 성공 또는 오류 알림을 수신하도록 선택할 수도 있습니다. 비동기 알림을 설정하는 방법에 대한 자세한 내용은 예측 결과 검사을 참고하세요.

참고

엔드포인트 구성에 비동기 추론 구성(AsyncInferenceConfig) 객체가 있다는 것은 엔드포인트가 비동기 호출만 수신할 수 있다는 것을 의미합니다.

어떻게 시작할 수 있습니까?

Amazon SageMaker 비동기 추론을 처음 사용하는 경우 다음을 수행하는 것이 좋습니다.

참고로 엔드포인트가 이 제외 페이지에 나열된 기능 중 하나를 사용하는 경우 비동기 추론을 사용할 수 없습니다.