推論コスト最適化のベストプラクティス

以下のコンテンツでは、エンドポイントのコストを最適化するための手法と考慮事項について説明します。これらの推奨事項を参考にして、新しいエンドポイントと既存のエンドポイントの両方のコストを最適化できます。

ベストプラクティス

SageMaker 推論コストを最適化するには、以下のベストプラクティスに従ってください。

SageMaker には、ジョブに最適な推論オプションを提供する 4 つの異なる推論オプションが用意されています。ワークロードに最も適した推論オプションを選択することで、コストを節約できる場合があります。

トラフィックパターンが予測可能な低レイテンシーのワークロードで、レイテンシー特性が一貫して、常に利用可能である必要がある場合は、リアルタイム推論を使用します。インスタンスの使用には料金がかかります。
トラフィックパターンが急上昇し、p99 レイテンシーの変動も許容できる同期ワークロードには、サーバーレス推論を使用します。サーバーレス推論はワークロードのトラフィックに合わせて自動的にスケールされるため、アイドル状態のリソースに料金を払う必要はありません。料金は、推論リクエストの期間に対してのみ課金されます。リアルタイム推論とサーバーレス推論の両方に同じモデルとコンテナを使用できるため、ニーズが変化した場合はこれら 2 つのモードを切り替えることができます。
レイテンシーの影響を受けず、コストの影響を受けやすい最大 1 GB のデータ (テキストコーパス、画像、動画、音声など) を処理する非同期ワークロードには、非同期推論を使用します。非同期推論では、ピーク時にプロビジョニングするのではなく、最適な処理速度になるように固定数のインスタンスを指定することでコストを管理できます。また、ゼロにスケールダウンして追加コストを節約することもできます。
オフラインで行われるプロセスで大規模データセットを推論する必要がある (つまり、永続的なエンドポイントは必要ない) ワークロードには、バッチ推論を使用します。インスタンスの料金は、バッチ推論ジョブの期間に対して支払います。

すべての SageMaker サービスで一貫した使用レベルがある場合は、 SageMaker Savings Plan にオプトインして、コストを最大 64% 削減できます。
Amazon SageMaker Savings Plans は、1 年または 3 年間の一貫した使用量 (1 時間あたりドルで測定) へのコミットメントと引き換えに SageMaker、Amazon の柔軟な料金モデルを提供します。これらのプランは、インスタンスファミリー、サイズ、またはリージョンに関係なく、 SageMaker Studio Classic Notebook、 SageMaker オンデマンドノートブック、 SageMaker 処理、 SageMaker Data Wrangler、 SageMaker トレーニング、 SageMaker リアルタイム推論、 SageMaker バッチ変換など、対象となる SageMaker ML インスタンスの使用に自動的に適用されます。例えば、推論ワークロードの使用状況を、米国東部 (オハイオ) で実行されている CPU ml.c5.xlarge インスタンスから、米国西部 (オレゴン) の ml.Inf1 インスタンスにいつでも変更でき、Savings Plans 料金を自動的に支払い続けることができます。

最適化されていないモデルは、実行時間が長くなり、より多くのリソースを消費する可能性があります。使用するインスタンス数を増やしたり、サイズを大きくしたりしてパフォーマンスを向上させることもできますが、コストが高くなります。
パフォーマンスを高めるようにモデルを最適化することで、同じかそれ以上のパフォーマンス特性を維持しながら、使用するインスタンスの数を減らしたり、サイズを小さくしたりして、コストを削減できる可能性があります。SageMaker Neo with SageMaker Inference を使用してモデルを自動的に最適化できます。詳細とサンプルについては、「 SageMaker Neo によるモデルパフォーマンスの最適化」を参照してください。

SageMaker Inference には、ML 用に最適化された AWS Inferentia や Graviton チップセットなど、ML モデルのデプロイに使用できる 70 を超えるインスタンスタイプとサイズがあります。モデルに適したインスタンスを選択することで、モデルにとって最も低いコストで、最もパフォーマンスの高いインスタンスを利用できます。

Inference Recommender を使用すると、さまざまなインスタンスをすばやく比較して、モデルのパフォーマンスとコストを把握できます。これらの結果から、投資収益率が最も高いインスタンスを選択してデプロイできます。

複数のエンドポイントをデプロイすると、特にエンドポイントが基盤となるインスタンスを十分に活用していない場合、コストがすぐに増加します。インスタンスが十分に活用されていないかどうかを確認するには、 CloudWatch インスタンスの Amazon CPUの使用率メトリクス (GPU、など) を確認してください。このようなエンドポイントが複数存在する場合、これらの複数のエンドポイントのモデルまたはコンテナを 1 つのエンドポイントにまとめることができます。
マルチモデルエンドポイント (MME) またはマルチコンテナエンドポイント (MCE) を使用すると、1 つのエンドポイントに複数の ML モデルまたはコンテナをデプロイして、複数のモデルまたはコンテナ間でインスタンスを共有し、投資収益率を向上させることができます。詳細については、 AWS Machine Learningブログ」の「Amazon SageMaker マルチモデルエンドポイントを使用して推論コストを節約する」または「Amazon SageMaker マルチコンテナエンドポイントを使用して、単一のインスタンスに複数のサービングコンテナをデプロイする」を参照してください。

自動スケーリングを使用しない場合、ピークトラフィックまたはリスクモデルによる使用不可に合わせてプロビジョニングする必要があります。モデルへのトラフィックが 1 日中安定していない限り、未使用の容量が過剰に発生することになります。これは使用率の低下とリソースの浪費につながります。
自動スケーリングは、 out-of-the-boxワークロードをモニタリングし、容量を動的に調整して、可能な限り低コストで安定した予測可能なパフォーマンスを維持する機能です。ワークロードが増加すると、自動スケーリングはより多くのインスタンスをオンラインにします。ワークロードが減ると、自動スケーリングにより不要なインスタンスが削除され、コンピューティングコストの削減に役立ちます。詳細については、 AWS Machine Learningブログの「Amazon での自動スケーリング推論エンドポイントの設定 SageMaker」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

デプロイメントのトラブルシューティング

GPU ドライバーのアップグレード中の中断を最小限に抑えるためのベストプラクティス