翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
コンソールを使用してモデルの自動スケーリングを設定する
モデルの自動スケーリングを設定するには (コンソール)
で Amazon SageMaker コンソールを開きますhttps://console.aws.amazon.com/sagemaker/
。 -
ナビゲーションペインで、推論 を選択し、エンドポイント を選択します。
-
エンドポイントを選択し、エンドポイントランタイム設定 でバリアントを選択します。
-
[Auto Scaling の設定] を選択します。
-
バリアント自動スケーリングの設定 ページのバリアント自動スケーリング で、次の操作を行います。
-
最小インスタンス数 には、スケーリングポリシーで維持するインスタンスの最小数を入力します。少なくとも 1 つのインスタンスが必要です
-
最大インスタンス数 には、スケーリングポリシーで維持するインスタンスの最大数を入力します。
-
-
組み込みスケーリングポリシー では、次の操作を行います。
-
ターゲットメトリクス の場合、
SageMakerVariantInvocationsPerInstance
はメトリクスに自動的に選択され、変更できません。 -
ターゲット値 には、モデルに対する 1 分あたりのインスタンスあたりの平均呼び出し数を入力します。この値を確認するには、「負荷テスト」のガイドラインに従います。
-
(オプション) スケールインクールダウン (秒) とスケールアウトクールダウン (秒) には、クールダウン期間ごとに時間を秒単位で入力します。
-
(オプション) トラフィックが減少しても Auto Scaling でインスタンスを終了させたくない場合は、スケールインを無効にするを選択します。
-
-
[Save] を選択します。
この手順では、Application Auto Scaling を使用してモデルをスケーラブルなターゲットとして登録します。モデルを登録するときに、Application Auto Scaling は検証チェックを実行して、次のことを確認します。
-
モデルが存在する
-
アクセス許可が十分である
-
T2 などのパフォーマンスをバースト可能なインスタンスであるインスタンスを持つバリアントを登録しない
注記
SageMaker ではT2 などのバーストインスタンスの Auto Scaling はサポートされません。これは、ワークロードの増加時に容量を増やすことができるためです。バーストパフォーマンスインスタンスの詳細については、「Amazon EC2インスタンスタイプ
」を参照してください。