サポートされている機能 - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

サポートされている機能

Amazon SageMaker では、推論用のモデルをデプロイするための次の 4 つのオプションを提供しています。

  • リアルタイム、インタラクティブ、低レイテンシーを必要とする推論ワークロードのためのリアルタイム推論。

  • 大規模なデータセットを使用したオフライン推論のためのバッチ変換。

  • near-real-time 前処理時間が長くなる大量の入力による推論のための非同期推論。

  • トラフィックのスパート間にアイドル期間がある推論ワークロード向けのサーバーレス推論。

次の表は、各推論オプションでサポートされているコアプラットフォーム機能をまとめたものです。フレームワーク、カスタム Docker コンテナ、または異なる AWS のサービスのチェーンを連結することで提供できる機能は示されていません。

機能 リアルタイム推論 バッチ変換 非同期推論 サーバーレス推論 Docker コンテナ
自動スケーリングのサポート 該当なし 該当なし
GPU サポート 1 1 1 1P、プレビルド、BYOC
シングルモデル 該当なし
マルチモデルエンドポイント k-NN、XGBoost、リニアラーナー、RCF、Apache MXNet、scikit-learn TensorFlow 2 PyTorch
マルチコンテナエンドポイント 1P、ビルド済み、ビルド済みの拡張、BYOC
シリアル推論パイプライン 1P、ビルド済み、ビルド済みの拡張、BYOC
推論レコメンダー 1P、ビルド済み、ビルド済みの拡張、BYOC
プライベートリンクのサポート 該当なし
データキャプチャ/モデルモニターサポート 該当なし
DLCs supported 1P、ビルド済み、ビルド済みの拡張、BYOC 1P、ビルド済み、ビルド済みの拡張、BYOC 1P、ビルド済み、ビルド済みの拡張、BYOC 1P、ビルド済み、ビルド済みの拡張、BYOC 該当なし
サポートされるプロトコル HTTP(S) HTTP(S) HTTP(S) HTTP(S) 該当なし
ペイロードサイズ < 6 MB ≤ 100 MB ≤ 1 GB ≤ 4 MB
HTTP チャンクエンコーディング フレームワーク依存、1P はサポート外 該当なし フレームワーク依存、1P はサポート外 フレームワーク依存、1P はサポート外 該当なし
リクエストのタイムアウト < 60 秒 日間 < 1 時間 < 60 秒 該当なし
デプロイガードレール: Blue/Green デプロイ 該当なし 該当なし
デプロイガードレール: ローリングデプロイ 該当なし 該当なし
シャドウテスト 該当なし
ゼロにスケール 該当なし 該当なし
マーケットプレイスモデルパッケージのサポート 該当なし
仮想プライベートクラウドのサポート 該当なし
複数の量産バリアントのサポート 該当なし
ネットワークの隔離 該当なし
モデル並列サービングのサポート 3 3 3
ボリュームの暗号化 該当なし
顧客 AWS KMS 該当なし
d インスタンスのサポート 該当なし
inf1 のサポート

を使用すると SageMaker、単一のモデルをデプロイすることも、単一の推論エンドポイントの背後に複数のモデルをデプロイしてリアルタイムの推論を行うこともできます。以下の表は、リアルタイム推論に付属するさまざまなホスティングオプションでサポートされるコア機能をまとめたものです。

機能 シングルモデルエンドポイント マルチモデルエンドポイント シリアル推論パイプライン マルチコンテナエンドポイント
自動スケーリングのサポート
GPU サポート 1
シングルモデル
マルチモデルエンドポイント 該当なし
マルチコンテナエンドポイント 該当なし
シリアル推論パイプライン 該当なし
推論レコメンダー
プライベートリンクのサポート
データキャプチャ/モデルモニターサポート 該当なし 該当なし 該当なし
対応する DLC 1P、ビルド済み、ビルド済みの拡張、BYOC k-NN、XGBoost、リニアラーナー、RCF、Apache MXNet、scikit-learn TensorFlow 2 PyTorch 1P、ビルド済み、ビルド済みの拡張、BYOC 1P、ビルド済み、ビルド済みの拡張、BYOC
サポートされるプロトコル HTTP(S) HTTP(S) HTTP(S) HTTP(S)
ペイロードサイズ < 6 MB < 6 MB < 6 MB < 6 MB
リクエストのタイムアウト < 60 秒 < 60 秒 < 60 秒 < 60 秒
デプロイガードレール: Blue/Green デプロイ
デプロイガードレール: ローリングデプロイ
シャドウテスト
マーケットプレイスモデルパッケージのサポート
仮想プライベートクラウドのサポート
複数の量産バリアントのサポート
ネットワークの隔離
モデル並列サービングのサポート 3 3
ボリュームの暗号化
顧客 AWS KMS
d インスタンスのサポート
inf1 のサポート

1 Amazon EC2 インスタンスタイプを利用できるかどうかは、 AWS リージョンによって異なります。固有のインスタンスの可用性については AWS、Amazon SageMaker 料金表を参照してください

2 他のフレームワークやアルゴリズムを使用するには、 SageMaker Inference ツールキットを使用してマルチモデルエンドポイントをサポートするコンテナを構築してください。

3 では SageMaker、推論用の大きなモデル (最大 500 GB) をデプロイできます。コンテナのヘルスチェックおよびダウンロードのタイムアウトクォータを最大 60 分まで設定できます。これにより、モデルおよび関連リソースのダウンロードとロードに余裕をもたせることができます。詳細については、「SageMaker 大規模モデル推論のエンドポイントパラメータ」を参照してください。 SageMaker 互換性のあるラージモデルの推論コンテナを使用できます。Triton などのサードパーティのモデル並列化ライブラリをやとともに使用することもできます。 FasterTransformer DeepSpeedこれらがと互換性があることを確認する必要があります。 SageMaker