自動スケーリングの前提条件

自動スケーリングを使用する前に、Amazon SageMaker AI モデルエンドポイントを作成しておく必要があります。同じエンドポイントに複数のモデルバージョンを持つことができます。各モデルは、本番稼働用 (モデル) バリアントと呼ばれます。モデルのエンドポイントのデプロイの詳細については、「SageMaker AI ホスティングサービスにモデルをデプロイする」を参照してください。

モデルの Auto Scaling を有効にするには、Application Auto Scaling API を使用して SageMaker AI コンソール、 AWS Command Line Interface (AWS CLI）、または AWS SDK を使用できます。

モデルのスケーリングを初めて設定する場合は、コンソールを使用してモデルの自動スケーリングを設定することをお勧めします。
AWS CLI または Application Auto Scaling API を使用する場合、フローはモデルをスケーラブルターゲットとして登録し、スケーリングポリシーを定義してから適用することです。SageMaker AI コンソールのナビゲーションペインの推論で、エンドポイントを選択します。モデルのエンドポイント名を探して選択し、バリアント名を見つけます。モデルの自動スケーリングを有効にするには、エンドポイント名とバリアント名の両方を指定する必要があります。

自動スケーリングは、Amazon SageMaker AI、Amazon CloudWatch、Application Auto Scaling APIs。最低限必要なアクセス許可の詳細については、「Application Auto Scaling ユーザーガイド」の「Application Auto Scaling identity-based policy examples」を参照してください。

SagemakerFullAccessPolicy IAM ポリシーには、自動スケーリングを実行するために必要なすべての IAM アクセス許可が付与されています。SageMaker AI IAM アクセス許可の詳細については、「」を参照してくださいSageMaker AI 実行ロールの使用方法。

独自のアクセス許可ポリシーを管理している場合は、次のアクセス許可を含める必要があります。

サービスリンクロール

自動スケーリングは、サービスにリンクされたロール AWSServiceRoleForApplicationAutoScaling_SageMakerEndpoint を使用します。このサービスにリンクされたロールは、Application Auto Scaling に対して、ポリシーのアラームの記述、現在の容量レベルのモニタリング、およびターゲットリソースのスケーリングを行うためのアクセス許可を付与します。このロールは自動的に作成されます。この自動ロール作成が正常に行われるには、iam:CreateServiceLinkedRole アクションへのアクセス許可が必要です。詳細については、アプリケーション Auto Scaling ユーザーガイドの「サービスにリンクされたロール」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

自動スケーリングポリシーの概要

コンソールを使用してモデルの自動スケーリングを設定する