翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
エンドポイントを更新すると、そのエンドポイント上のモデルが自動スケーリングの対象となっているかどうかを Application Auto Scaling がチェックします。更新により自動スケーリングの対象となっているいずれかのモデルのインスタンスタイプが変更される場合、更新は失敗します。
で AWS Management Console、モデルを更新する前に自動スケーリングからモデルを登録解除する必要があるという警告が表示されます。UpdateEndpoint API を呼び出してエンドポイントの更新を試行すると、呼び出しが失敗します。エンドポイントを更新する前に、そのエンドポイントに設定されているスケーリングポリシーをすべて削除し、Application Auto Scaling API アクション DeregisterScalableTarget を呼び出してそのバリアントのスケーラブルなターゲットの登録を解除します。エンドポイントを更新した後に、更新されたバリアントをスケーラブルなターゲットとして登録し、スケーリングポリシーをアタッチできます。
1 つ例外があります。自動スケーリング用に設定されたバリアントのモデルを変更すると、Amazon SageMaker AI 自動スケーリングによって更新が許可されます。これは、一般的にはモデルを変更しても、スケーリング動作を変更するほどパフォーマンスには影響を及ぼさないからです。自動スケーリングの対象として設定されているバリアントのモデルを更新した場合、そのモデルへの変更がパフォーマンスとスケーリング動作に大幅に影響しないことを確認する必要があります。
自動スケーリングが適用された SageMaker AI エンドポイントを更新する場合は、次の手順を実行します。
自動スケーリングが適用されたエンドポイントを更新するには
-
エンドポイントをスケーラブルなターゲットとして登録解除するには、「DeregisterScalableTarget」を呼び出します。
-
自動スケーリングは、更新オペレーションの進行中 (または前のステップで自動スケーリングをオフにした場合) はブロックされるため、更新中にエンドポイントのインスタンス数を増やすという追加の予防措置を講じることができます。そのためには、UpdateEndpointWeightsAndCapacities を呼び出して、エンドポイントでホストされている本番稼働用バリアントのインスタンスの数を更新します。
-
レスポンスの
EndpointStatus
フィールドの値がInService
になるまで、DescribeEndpoint を繰り返し呼び出します。 -
DescribeEndpointConfig を呼び出して、現在のエンドポイント設定の値を取得します。
-
CreateEndpointConfig を呼び出して、新しいエンドポイント設定を作成します。既存のインスタンス数または重みを保持する本番稼働用バリアントの場合、前のステップで DescribeEndpointConfig を呼び出したときのレスポンスと同じバリアント名を使用します。他のすべての値については、前のステップで DescribeEndpointConfig を呼び出したときにレスポンスとして取得した値を使用します。
-
UpdateEndpoint を呼び出してエンドポイントを更新します。前のステップで作成したエンドポイント設定を
EndpointConfig
フィールドとして指定します。インスタンス数や重みなどのバリアントプロパティを保持する場合、RetainAllVariantProperties
パラメータの値をTrue
に設定します。これにより、同じ名前の本番稼働用バリアントが、新しいEndpointConfig
のInitialInstanceCount
フィールドの値に関係なく、DescribeEndpoint
の呼び出しの応答から取られた最新のDesiredInstanceCount
で更新されるように指定されます。 -
(オプション) RegisterScalableTarget と PutScalingPolicy を呼び出して自動スケーリングを再度アクティブ化します。
注記
ステップ 1 と 7 は、次の変更でエンドポイントを更新する場合のみ必要です。
-
自動スケーリングが設定されている本番稼働用バリアントのインスタンスタイプを変更する
-
自動スケーリングが設定されている本番稼働用バリアントを削除する。