Amazon SageMaker Inference Recommender を使用したレコメンデーションジョブ

Amazon SageMaker Inference Recommender は、次の 2 種類のレコメンデーションを作成できます。

推論レコメンデーション (Default ジョブタイプ) は、レコメンデーションインスタンスタイプに対して一連のロードテストを実行します。サーバーレスエンドポイントのロードテストを行うこともできます。モデルパッケージの Amazon リソースネーム (ARN) を指定するだけで、このタイプのレコメンデーションジョブを起動できます。推論レコメンデーションジョブは 45 分以内に完了します。
エンドポイントのレコメンデーション (Advanced ジョブタイプ) は、目的の機械学習インスタンスまたはサーバーレスエンドポイントを選択し、カスタムトラフィックパターンを指定して、本番環境要件に基づいてレイテンシーとスループットの要件を指定するカスタムロードテストに基づいています。このジョブの完了には、設定されたジョブ期間とテストされた推論設定の合計数に応じて、平均 2 時間かかります。

どちらのタイプのレコメンデーションも、同じ API を使用し、ジョブの作成、説明、停止を使用します。出力は、関連する環境変数、コスト、スループット、レイテンシーメトリクスに関連するインスタンス設定のレコメンデーションのリストです。レコメンデーションジョブは、オートスケーリングポリシーの設定に使用できる初期インスタンス数も提供します。2 つのタイプのジョブを区別するには、SageMaker AI コンソールまたは APIs を使用してジョブを作成するときに、を指定Defaultして予備的なエンドポイントレコメンデーションを作成し、を指定してカスタムロードテストとエンドポイントレコメンデーションAdvancedを作成します。

注記

両方のタイプのレコメンデーションジョブを独自のワークフローで実行する必要はありません。どちらかから独立して行うことができます。

Inference Recommender では、想定インスタンスのリスト、またはモデルデプロイのコスト、スループット、レイテンシーが最適化された上位 5 つのインスタンスタイプを、信頼度スコアとともに提供することもできます。これらのインスタンスは、モデルをデプロイする際に選択できます。Inference Recommender はモデルに対して自動的にベンチマークを行い、想定インスタンスを提供します。これらは予備的なレコメンデーションであるため、より正確な結果を得るには、さらにインスタンスレコメンデーションジョブを実行することをお勧めします。インスタンス候補を表示するには、SageMaker AI モデルの詳細ページに移動します。詳細については、「想定インスタンスを即時に入手する」を参照してください。

トピック

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

前提条件

想定インスタンスを即時に入手する