コンソールを使用してモデルの自動スケーリングを設定する

モデルの自動スケーリングを設定するには (コンソール）

で Amazon SageMaker コンソールを開きますhttps://console.aws.amazon.com/sagemaker/。
ナビゲーションペインで、推論を選択し、エンドポイント を選択します。
エンドポイントを選択し、エンドポイントランタイム設定 でバリアントを選択します。
[Auto Scaling の設定] を選択します。
バリアント自動スケーリングの設定 ページのバリアント自動スケーリング で、次の操作を行います。
1. 最小インスタンス数 には、スケーリングポリシーで維持するインスタンスの最小数を入力します。少なくとも 1 つのインスタンスが必要です
2. 最大インスタンス数 には、スケーリングポリシーで維持するインスタンスの最大数を入力します。
組み込みスケーリングポリシー では、次の操作を行います。
1. ターゲットメトリクスの場合、 SageMakerVariantInvocationsPerInstanceはメトリクスに自動的に選択され、変更できません。
2. ターゲット値には、モデルに対する 1 分あたりのインスタンスあたりの平均呼び出し数を入力します。この値を確認するには、「負荷テスト」のガイドラインに従います。
3. （オプション) スケールインクールダウン (秒） とスケールアウトクールダウン (秒) には、クールダウン期間ごとに時間を秒単位で入力します。
4. （オプション) トラフィックが減少しても Auto Scaling でインスタンスを終了させたくない場合は、スケールインを無効にするを選択します。
[Save] を選択します。

この手順では、Application Auto Scaling を使用してモデルをスケーラブルなターゲットとして登録します。モデルを登録するときに、Application Auto Scaling は検証チェックを実行して、次のことを確認します。

モデルが存在する
アクセス許可が十分である
T2 などのパフォーマンスをバースト可能なインスタンスであるインスタンスを持つバリアントを登録しない

注記
SageMaker ではT2 などのバーストインスタンスの Auto Scaling はサポートされません。これは、ワークロードの増加時に容量を増やすことができるためです。バーストパフォーマンスインスタンスの詳細については、「Amazon EC2インスタンスタイプ」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

概要

モデルの登録

コンソールを使用してモデルの自動スケーリングを設定する

モデルの自動スケーリングを設定するには (コンソール）

注記