추론 비용 최적화 모범 사례

다음 콘텐츠에는 엔드포인트 비용 최적화를 위한 기법과 고려 사항이 있습니다. 이러한 권장 사항을 적용하여 새 엔드포인트와 기존 엔드포인트의 비용을 최적화할 수 있습니다.

모범 사례

SageMaker 추론 비용을 최적화하려면 다음 모범 사례를 따르세요.

SageMaker 작업에 가장 적합한 추론 옵션을 제공하기 위해 4가지 추론 옵션을 제공합니다. 워크로드에 가장 적합한 추론 옵션을 선택하면 비용을 절감할 수 있습니다.

지연 시간 특성이 일정해야 하고 항상 사용 가능한 예측 가능한 트래픽 패턴을 가진 지연 시간이 짧은 워크로드에는 실시간 추론을 적용합니다. 이 경우 인스턴스 사용료를 지불합니다.
트래픽 패턴이 급격하고 p99 지연 시간 변동을 수용할 수 있는 동기식 워크로드에는 서버리스 추론을 적용합니다. 서버리스 추론은 워크로드 트래픽에 맞춰 자동 조정되므로 유휴 리소스에 대한 비용을 지불하지 않아도 됩니다. 추론 요청 기간 동안만 비용을 지불합니다. 동일한 모델과 컨테이너를 실시간 추론과 서버리스 추론에 모두 사용할 수 있으므로 요구 사항이 변경될 경우 이 두 모드 사이를 전환할 수 있습니다.
지연 시간에 구애받지 않고 비용에 민감한 최대 1GB의 데이터를 처리하는 비동기식 추론(예: 텍스트 코퍼스, 이미지, 동영상, 오디오)에는 비동기식 추론을 적용합니다. 비동기식 추론을 적용하면 최대 처리 속도에 맞춰 프로비저닝하는 대신 최적의 처리 속도를 위해 고정된 수의 인스턴스를 지정하여 비용을 제어할 수 있습니다. 0까지 축소하여 추가 비용을 절감할 수도 있습니다.
오프라인으로 실행되는 프로세스의 대규모 데이터 세트에 대한 추론이 필요한 워크로드(즉, 지속적인 엔드포인트 불필요)에는 배치 추론을 적용합니다. 배치 추론 작업 기간 동안에만 인스턴스 요금을 지불하면 됩니다.

모든 SageMaker 서비스에서 사용 수준이 일정하다면 SageMaker Savings Plan을 선택하여 비용을 최대 64% 절감할 수 있습니다.
Amazon SageMaker Savings Plans는 1년 또는 3년 기간 동안 일관된 사용량 (시간당 USD) 을 약속하는 대가로 SageMaker Amazon에 유연한 요금 모델을 제공합니다. 이러한 플랜은 인스턴스 패밀리, 크기 또는 지역에 관계없이 SageMaker 스튜디오 클래식 노트북, SageMaker 온디맨드 노트북, SageMaker 프로세싱, SageMaker 데이터 랭글러, SageMaker 교육, SageMaker 실시간 추론, SageMaker Batch Transform을 비롯한 적격 SageMaker ML 인스턴스 사용에 자동으로 적용됩니다. 예를 들어 추론 워크로드에 대한 사용량을 언제든지 미국 동부 (오하이오) 에서 실행 중인 CPU ml.c5.xlarge 인스턴스에서 미국 서부 (오레곤) 의 ML.inf1 인스턴스로 변경하고 자동으로 Savings Plans 가격을 계속 지불할 수 있습니다.

최적화되지 않은 모델은 실행 시간을 늘리고 더 많은 리소스를 사용할 수 있습니다. 성능 개선을 위해 더 많거나 큰 인스턴스를 사용할 수도 있지만 더 높은 비용을 초래합니다.
최적화를 통해 모델 성능을 높이면 동일하거나 더 나은 성능 특성을 유지하면서 더 적거나 작은 인스턴스를 사용하여 비용을 절감할 수 있습니다. Neo와 Inference를 사용하여 모델을 자동으로 최적화할 수 있습니다. SageMaker SageMaker 자세한 내용과 샘플은 Neo를 사용한 모델 성능 최적화에서 확인하세요.

SageMaker 추론은 다음을 포함하여 ML 모델을 배포하는 데 사용할 수 있는 70개 이상의 인스턴스 유형과 크기를 제공합니다. AWS ML에 최적화된 인퍼런시아 및 그라비톤 칩셋. 모델에 적합한 인스턴스를 선택하면 가장 저렴한 비용으로 가장 성능 좋은 인스턴스를 모델에 구축할 수 있습니다.

추론 추천을 통해 여러 인스턴스를 빠르게 비교하여 모델의 성능과 비용을 파악할 수 있습니다. 이 결과를 바탕으로 가장 투자 수익률이 높은 배포 대상 인스턴스를 선택할 수 있습니다.

다중 엔드포인트 배포 시 특히 엔드포인트가 기본 인스턴스를 충분히 활용하지 못하는 경우 비용이 빠르게 증가할 수 있습니다. 인스턴스 사용률이 낮은지 알아보려면 Amazon의 인스턴스 사용률 지표 (CPUGPU, 등) CloudWatch 를 확인하십시오. 이러한 엔드포인트가 두 개 이상인 경우 여러 엔드포인트에 있는 모델 또는 컨테이너를 단일 엔드포인트로 결합할 수 있습니다.
다중 모델 엔드포인트 (MME) 또는 다중 컨테이너 엔드포인트 (MCE) 를 사용하면 단일 엔드포인트에 여러 ML 모델 또는 컨테이너를 배포하여 여러 모델 또는 컨테이너에서 인스턴스를 공유하고 투자 수익을 높일 수 있습니다. 자세한 내용은 다음을 참조하십시오. Amazon SageMaker 다중 모델 엔드포인트를 사용하여 추론 비용을 절약하거나 Amazon 다중 컨테이너 엔드포인트를 사용하여 단일 인스턴스에 여러 서비스 컨테이너를 배포하십시오. SageMaker AWS Machine Learning 블로그.

오토 스케일링 기능이 없는 경우 피크 트래픽 또는 위험 모델 사용이 불가한 상황에 대비하여 프로비저닝해야 합니다. 모델에 대한 트래픽이 하루 종일 일정하지 않으면 사용되지 않은 용량이 초과될 수 있습니다. 그러면 낮은 사용률과 리소스 낭비로 이어집니다.
자동 크기 조정은 워크로드를 모니터링하고 용량을 동적으로 조정하여 가능한 최저 비용으로 안정적이고 예측 가능한 성능을 유지하는 out-of-the-box 기능입니다. 워크로드가 증가하면 Autoscaling은 더 많은 인스턴스를 온라인 상태로 전환합니다. 워크로드가 감소하면 오토 스케일링은 불필요한 인스턴스를 제거하여 컴퓨팅 비용 절감에 도움을 줍니다. 자세한 내용은 Amazon의 자동 크기 조정 추론 엔드포인트 구성을 참조하십시오. SageMaker AWS Machine Learning 블로그.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

배포 문제 해결

드라이버 업그레이드 중 GPU 중단을 최소화하는 모범 사례