Amazon과 함께 트리톤 추론 서버 사용 SageMaker - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon과 함께 트리톤 추론 서버 사용 SageMaker

SageMaker 고객이 NVIDIA Triton 추론 서버의 사용자 지정 코드를 사용하여 모델을 배포할 수 있도록 합니다. 이 기능은 Triton Inference Server 컨테이너의 개발을 통해 사용할 수 있습니다. 이러한 컨테이너에는 NVIDIA Triton 추론 서버, 일반적인 ML 프레임워크 지원, 성능을 최적화할 수 있는 유용한 환경 변수가 포함됩니다. SageMaker 사용 가능한 모든 딥 러닝 컨테이너 이미지 목록은 사용 가능한 딥 러닝 컨테이너 이미지를 참조하세요. 딥 러닝 컨테이너 이미지는 보안 패치를 통해 유지 관리되고 정기적으로 업데이트됩니다.

모델의 다른 컨테이너와 마찬가지로 SageMaker Python SDK와 함께 Triton 추론 서버 컨테이너를 사용할 수 있습니다. SageMaker 하지만 SageMaker Python SDK를 사용하는 것은 선택 사항입니다. Triton 추론 서버 컨테이너는 및 와 함께 사용할 수 있습니다. AWS CLI AWS SDK for Python (Boto3)

NVIDIA Triton Inference Server에 대한 자세한 내용은 Triton 설명서를 참조하세요.

Inference

참고

Triton Python 백엔드는 공유 메모리 (SHMEM) 를 사용하여 코드를 트리톤에 연결합니다. SageMaker 추론은 인스턴스 메모리의 최대 절반을 SHMEM으로 제공하므로 더 큰 SHMEM 크기에 더 많은 메모리가 있는 인스턴스를 사용할 수 있습니다.

추론의 경우 학습된 ML 모델을 Triton 추론 서버와 함께 사용하여 추론 작업을 배포할 수 있습니다. SageMaker

Triton 추론 서버 컨테이너의 주요 기능 중 일부는 다음과 같습니다.

  • 다중 프레임워크 지원: Triton을 사용하여 모든 주요 ML 프레임워크의 모델을 배포할 수 있습니다. 트리톤은 TensorFlow GraphDef 및 SavedModel, ONNX, PyTorch TorchScript TensorRT 및 사용자 지정 파이썬/C++ 모델 형식을 지원합니다.

  • 모델 파이프라인: Triton 모델 앙상블은 전/후 처리 로직과 이들 사이의 입력 및 출력 텐서 연결을 갖춘 하나의 모델의 파이프라인을 나타냅니다. 앙상블에 대한 단일 추론 요청은 전체 파이프라인의 실행을 트리거합니다.

  • 동시 모델 실행: 동일한 모델의 여러 인스턴스를 동일한 GPU 또는 여러 GPU에서 동시에 실행할 수 있습니다.

  • 동적 일괄 처리: 일괄 처리를 지원하는 모델의 경우 Triton에는 개별 추론 요청을 결합하여 추론 처리량을 개선하는 여러 개의 기본 제공 스케줄링 및 일괄 처리 알고리즘이 있습니다. 이러한 스케줄링 및 일괄 처리 결정은 추론을 요청하는 클라이언트에게 투명합니다.

  • 다양한 CPU 및 GPU 지원: CPU 또는 GPU에서 모델을 실행하여 유연성을 극대화하고 이기종 컴퓨팅 요구 사항을 지원할 수 있습니다.

어떤 작업을 수행하려고 합니까?

학습한 모델을 에 배포하고 싶습니다. PyTorch SageMaker

Jupyter 노트북 샘플은 트리톤 인퍼런스 서버를 사용하여 PyTorch Resnet50 모델 배포하기 예제를 참조하십시오.

훈련된 Hugging Face 모델을 SageMaker 에 적용하고 싶습니다.

Jupyter 노트북 샘플은 트리톤 인퍼런스 서버를 사용한 PyTorch BERT 모델 배포하기 예제를 참조하십시오.