將 Triton 推論伺服器與 Amazon 搭配使用 SageMaker - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

將 Triton 推論伺服器與 Amazon 搭配使用 SageMaker

SageMaker 可讓客戶透過 NVIDIA Triton 推論伺服器使用自訂程式碼來部署模型。此功能可透過 Triton 推論伺服器容器的開發使用。這些容器包括 NVIDIA Triton 推論伺服器、一般 ML 架構的支援,以及可讓您最佳化效能的實用環境變數。 SageMaker有關所有可用深度學習容器圖像的清單,請參閱可用的深度學習容器映像檔。深度學習容器映像檔會獲得維護並定期更新安全性修補程式。

您可以將 Triton 推論伺服器容器與 SageMaker Python 搭配使用,就SDK像在模型中使用任何其他容器一樣。 SageMaker 但是,使用 SageMaker Python SDK 是可選的。您可以將 Triton 推論伺服器容器與和搭配使用。 AWS CLI AWS SDK for Python (Boto3)

如需 NVIDIA Triton 推論伺服器的詳細資訊,請參閱 Triton 文件。

Inference

注意

Triton Python 後端使用共享內存(SHMEM)將您的代碼連接到海衛。 SageMaker 推論提供最多一半的執行個體記憶體,SHMEM因此您可以使用具有更多記憶體的執行個體以獲得更大的大SHMEM小。

對於推論,您可以使用經過訓練的機器學習模型搭配 Triton 推論伺服器來部署推論工作。 SageMaker

Triton 推論伺服器容器的一些主要功能包括:

  • 支援多種架構:Triton 可用來部署來自所有主要機器學習 (ML) 架構的模型。海衛同支援 TensorFlow GraphDef 和 SavedModel、、ONNX PyTorch TorchScript、TensorRT 和自訂的蟒蛇 /C++ 模型格式。

  • 模型管道:Triton 模型整體表示具有前/後處理邏輯的一個模型的管道,以及它們之間的輸入和輸出張量的連接。對整體的單一推論要求會觸發整個管道的執行。

  • 並發模型執行:同一模型的多個實例可以在同一個GPU或多個上同時運行GPUs。

  • 動態批次處理:針對支援批次處理的模型,Triton 具有多種內建的排程和批次處理演算法,可將個別推論請求結合在一起,以提高推論輸送量。這些排程和批次處理決策對於用戶端要求的推論來說是透明的。

  • 多樣化CPU與GPU支援:這些模型可以執行,CPUs也GPUs可以達到最大的彈性,並支援異質運算需求。

您想要做什麼?

我想要部署我訓練有素的 PyTorch 模型 SageMaker。

如需 Jupyter 筆記本範例,請參閱使用 Triton 推論伺服器部署 PyTorch Resnet50 模型範例。

我想部署我訓練有素的 Hugging Face 模型。 SageMaker

如需 Jupyter 筆記本範例,請參閱使用 Triton 推論伺服器部署 PyTorch BERT模型範例。