翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
コンソールを使用してモデルの自動スケーリングを設定する
モデルの自動スケーリングを設定するには (コンソール)
https://console.aws.amazon.com/sagemaker/
で Amazon SageMaker AI コンソールを開きます。 -
ナビゲーションペインで [推論] を選択し、[エンドポイント] を選択します。
-
エンドポイントを選択し、[エンドポイントのランタイム設定] でバリアントを選択します。
-
[Auto Scaling の設定] を選択します。
-
[バリアントの自動スケーリングの設定] ページの [バリアントの自動スケーリング] で、以下を実行します。
-
[最小インスタンス数] に、スケーリングポリシーが維持する必要があるインスタンスの最小数を入力します。少なくとも 1 つのインスタンスが必要です
-
[最大インスタンス数] に、スケーリングポリシーが維持する必要があるインスタンスの最大数を入力します。
-
-
[組み込みのスケーリングポリシー] で、以下を実行します。
-
[ターゲットメトリクス] については、メトリクスに
SageMakerVariantInvocationsPerInstance
が自動的に選択され、変更できません。 -
[ターゲット値] については、モデルの 1 分あたりのインスタンスごとの平均呼び出し回数を入力します。この値を確認するには、「負荷テスト」のガイドラインに従います。
-
[スケールインのクールダウン (秒)] と [スケールアウトのクールダウン (秒)] に、それぞれのクールダウン期間の秒数を入力します。
-
(オプション) トラフィックが減少したときに自動スケーリングでインスタンスが終了されないようにするには、[スケールインの無効化] を選択します。
-
-
[Save] を選択します。
この手順では、Application Auto Scaling を使用してモデルをスケーラブルなターゲットとして登録します。モデルを登録するときに、Application Auto Scaling は検証チェックを実行して、次のことを確認します。
-
モデルが存在する
-
アクセス許可が十分である
-
T2 などのパフォーマンスをバースト可能なインスタンスであるインスタンスを持つバリアントを登録しない
注記
SageMaker AI はT2 などのバーストインスタンスの自動スケーリングをサポートしていません。ワークロードの増加時に容量を増やすことができるためです。バーストパフォーマンスインスタンスの詳細については、「Amazon EC2 インスタンスタイプ
」を参照してください。