自動スケーリング設定の負荷テスト

ロードテストを実行して、希望どおりに動作するスケーリング設定を選択します。

以下のロードテストのガイドラインは、定義済みのターゲットメトリックスを使用するスケーリングポリシーを使用していることを前提としていますSageMakerVariantInvocationsPerInstance。

トピック

パフォーマンス特性を明確にする
ターゲットの負荷を計算する

パフォーマンス特性を明確にする

負荷テストを実行し、モデルの本番稼働用バリアントが処理できる InvocationsPerInstance のピーク、および同時実行数の増加に伴うリクエストのレイテンシーを探し出します。

この値は選択したインスタンスタイプ、モデルのクライアントが通常送信するペイロード、モデルのすべての外部依存関係のパフォーマンスに依存します。

モデルのプロダクションバリアントが処理できるピーク requests-per-second (RPS) とリクエストのレイテンシーを調べるには

単一のインスタンスを使用してモデルにエンドポイントを設定します。エンドポイントの設定方法の詳細については、「 SageMaker ホスティングサービスにモデルをデプロイする」を参照してください。
負荷テストツールを使用して増加する並列リクエストを生成し、負荷テストツールの出力で RPS とモデルのレイテンシーを監視します。

注記
RPS requests-per-minute の代わりにモニタリングすることもできます。その場合、式に 60 を乗算して以下に示す SageMakerVariantInvocationsPerInstance を計算しないでください。

モデルのレイテンシーが増加、または成功したトランザクションの割合が減少するタイミングが、バリアントが処理できるピークの RPS になります。

ターゲットの負荷を計算する

バリアントのパフォーマンス特性を探し出した後は、インスタンスへの送信を許可する最大 RPS を決定できます。スケーリングに使用されるしきい値はこの最大値より小さくする必要があります。次の式を負荷テストと組み合わせて使用し、SageMakerVariantInvocationsPerInstanceスケーリング設定内のターゲットメトリクスの正しい値を判断してください。


SageMakerVariantInvocationsPerInstance = (MAX_RPS * SAFETY_FACTOR) * 60

ここで、MAX_RPS は以前に決定した最大 RPS で、SAFETY_FACTOR はクライアントが最大 RPS を超過しないように選択する安全係数です。60 を掛けると、RPS から auto Scaling SageMaker の実装に使用される 1 invocations-per-minute CloudWatch 分あたりの指標と一致するように変換されます（ requests-per-minute 代わりに測定した場合は必要ありません）。 requests-per-second

注記

SageMaker テストは 0.5 から始めることをお勧めします。SAFETY_FACTORスケーリング設定をテストして、エンドポイントの顧客トラフィックの増加と減少の両方について、モデルで期待どおりに動作することを確認します。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

スケーリングアクティビティのステータスを確認する。

AWS CloudFormation を使用してスケーリングポリシーを作成します。