コンソールを使用してモデルの自動スケーリングを設定する - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

コンソールを使用してモデルの自動スケーリングを設定する

モデルの自動スケーリングを設定するには (コンソール)
  1. https://console.aws.amazon.com/sagemaker/ で Amazon SageMaker コンソールを開きます。

  2. ナビゲーションペインで、推論 を選択し、エンドポイント を選択します。

  3. エンドポイントを選択し、エンドポイントランタイム設定 でバリアントを選択します。

  4. [Auto Scaling の設定] を選択します。

  5. バリアント自動スケーリングの設定ページで、バリアント自動スケーリング に次の操作を行います。

    1. 最小インスタンス数 には、スケーリングポリシーで維持するインスタンスの最小数を入力します。少なくとも 1 つのインスタンスが必要です

    2. 最大インスタンス数 に、スケーリングポリシーで維持するインスタンスの最大数を入力します。

  6. 組み込みスケーリングポリシー で、次の操作を行います。

    1. ターゲットメトリクス の場合、 SageMakerVariantInvocationsPerInstanceはメトリクスに自動的に選択され、変更できません。

    2. ターゲット値 には、モデルのインスタンス 1 分あたりの平均呼び出し数を入力します。この値を確認するには、「負荷テスト」のガイドラインに従います。

    3. (オプション) スケールインクールダウン (秒)スケールアウトクールダウン (秒) では、各クールダウン期間の時間を秒単位で入力します。

    4. (オプション) トラフィックが減少したときに Auto Scaling でインスタンスを終了しない場合は、スケールインを無効にするを選択します。

  7. [保存] を選択します。

この手順では、Application Auto Scaling を使用してモデルをスケーラブルなターゲットとして登録します。モデルを登録するときに、Application Auto Scaling は検証チェックを実行して、次のことを確認します。

  • モデルが存在する

  • アクセス許可が十分である

  • T2 などのパフォーマンスをバースト可能なインスタンスであるインスタンスを持つバリアントを登録しない

    注記

    SageMaker では、T2 などのバースト可能なインスタンスの Auto Scaling はサポートされていません。ワークロードの増加に伴ってキャパシティーを既に増やすことができるためです。バーストパフォーマンスインスタンスの詳細については、「Amazon EC2 インスタンスタイプ」を参照してください。