サポートされている機能

Amazon SageMaker AI には、推論用にモデルをデプロイするための次の 4 つのオプションがあります。

リアルタイム、インタラクティブ、低レイテンシーを必要とする推論ワークロードのためのリアルタイム推論。
大規模なデータセットを使用したオフライン推論のためのバッチ変換。
前処理時間が長くなる大量の入力に対し、ほぼリアルタイムで推論を行う非同期推論。
トラフィックのスパート間にアイドル期間がある推論ワークロード向けのサーバーレス推論。

次の表は、各推論オプションでサポートされているコアプラットフォーム機能をまとめたものです。フレームワーク、カスタム Docker コンテナ、または異なる AWS のサービスのチェーンを連結することで提供できる機能は示されていません。

機能	リアルタイム推論	バッチ変換	非同期推論	サーバーレス推論	Docker コンテナ
自動スケーリングのサポート	✓	該当なし	✓	✓	該当なし
GPU サポート	✓¹	✓¹	✓¹		1P、プレビルド、BYOC
シングルモデル	✓	✓	✓	✓	該当なし
マルチモデルエンドポイント	✓				k-NN、XGBoost、線形学習、RCF、TensorFlow、Apache MXNet、PyTorch、scikit-learn ²
マルチコンテナエンドポイント	✓				1P、ビルド済み、ビルド済みの拡張、BYOC
シリアル推論パイプライン	✓	✓			1P、ビルド済み、ビルド済みの拡張、BYOC
推論レコメンダー	✓				1P、ビルド済み、ビルド済みの拡張、BYOC
プライベートリンクのサポート	✓	✓	✓		該当なし
データキャプチャ/モデルモニターサポート	✓	✓			該当なし
DLCs supported	1P、ビルド済み、ビルド済みの拡張、BYOC	1P、ビルド済み、ビルド済みの拡張、BYOC	1P、ビルド済み、ビルド済みの拡張、BYOC	1P、ビルド済み、ビルド済みの拡張、BYOC	該当なし
サポートされるプロトコル	HTTP(S)	HTTP(S)	HTTP(S)	HTTP(S)	該当なし
ペイロードサイズ	< 6 MB	≤ 100 MB	≤ 1 GB	≤ 4 MB
HTTP チャンクエンコーディング	フレームワーク依存、1P はサポート外	該当なし	フレームワーク依存、1P はサポート外	フレームワーク依存、1P はサポート外	該当なし
リクエストのタイムアウト	< 60 秒	日間	< 1 時間	< 60 秒	該当なし
デプロイガードレール: Blue/Green デプロイ	✓	該当なし	✓		該当なし
デプロイガードレール: ローリングデプロイ	✓	該当なし	✓		該当なし
シャドウテスト	✓				該当なし
ゼロにスケール		該当なし	✓	✓	該当なし
マーケットプレイスモデルパッケージのサポート	✓	✓			該当なし
仮想プライベートクラウドのサポート	✓	✓	✓		該当なし
複数の量産バリアントのサポート	✓				該当なし
ネットワークの隔離	✓		✓		該当なし
モデル並列サービングのサポート	✓³	✓	✓³		✓³
ボリュームの暗号化	✓	✓	✓	✓	該当なし
顧客 AWS KMS	✓	✓	✓	✓	該当なし
d インスタンスのサポート	✓	✓	✓		該当なし
inf1 のサポート	✓				✓

SageMaker AI を使用すると、1 つのモデル、または 1 つの推論エンドポイントの背後に複数のモデルをデプロイして、リアルタイム推論を行うことができます。以下の表は、リアルタイム推論に付属するさまざまなホスティングオプションでサポートされるコア機能をまとめたものです。

機能	シングルモデルエンドポイント	マルチモデルエンドポイント	シリアル推論パイプライン	マルチコンテナエンドポイント
自動スケーリングのサポート	✓	✓	✓	✓
GPU サポート	✓¹	✓	✓
シングルモデル	✓	✓	✓	✓
マルチモデルエンドポイント		✓	✓	該当なし
マルチコンテナエンドポイント	✓			該当なし
シリアル推論パイプライン	✓	✓	該当なし
推論レコメンダー	✓
プライベートリンクのサポート	✓	✓	✓	✓
データキャプチャ/モデルモニターサポート	✓	該当なし	該当なし	該当なし
対応する DLC	1P、ビルド済み、ビルド済みの拡張、BYOC	k-NN、XGBoost、線形学習、RCF、TensorFlow、Apache MXNet、PyTorch、scikit-learn ²	1P、ビルド済み、ビルド済みの拡張、BYOC	1P、ビルド済み、ビルド済みの拡張、BYOC
サポートされるプロトコル	HTTP(S)	HTTP(S)	HTTP(S)	HTTP(S)
ペイロードサイズ	< 6 MB	< 6 MB	< 6 MB	< 6 MB
リクエストのタイムアウト	< 60 秒	< 60 秒	< 60 秒	< 60 秒
デプロイガードレール: Blue/Green デプロイ	✓	✓	✓	✓
デプロイガードレール: ローリングデプロイ	✓	✓	✓	✓
シャドウテスト	✓
マーケットプレイスモデルパッケージのサポート	✓
仮想プライベートクラウドのサポート	✓	✓	✓	✓
複数の量産バリアントのサポート	✓		✓	✓
ネットワークの隔離	✓	✓	✓	✓
モデル並列サービングのサポート	✓ ³		✓ ³
ボリュームの暗号化	✓	✓	✓	✓
顧客 AWS KMS	✓	✓	✓	✓
d インスタンスのサポート	✓	✓	✓	✓
inf1 のサポート	✓

¹ Amazon EC2 インスタンスタイプの可用性は、 AWS リージョンによって異なります。固有のインスタンスの可用性については AWS、Amazon SageMakerの料金」を参照してください。

² 他のフレームワークまたはアルゴリズムを使用するには、SageMaker AI 推論ツールキットを使用して、マルチモデルエンドポイントをサポートするコンテナを構築します。

³ SageMaker AI を使用すると、推論用に大規模なモデル (最大 500 GB) をデプロイできます。コンテナのヘルスチェックおよびダウンロードのタイムアウトクォータを最大 60 分まで設定できます。これにより、モデルおよび関連リソースのダウンロードとロードに余裕をもたせることができます。詳細については、「大規模モデル推論用の SageMaker AI エンドポイントパラメータ」を参照してください。SageMaker AI 互換の大規模モデル推論コンテナを使用できます。また FasterTransformer や DeepSpeed を備えた Triton などのサードパーティーのモデル並列化ライブラリを使用することもできます。SageMaker AI と互換性があることを確認する必要があります。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

NVIDIA Container Toolkit のコンテナの更新

リソース