Bestimmen der Leistungseigenschaften Berechnen der Ziellast

Lasttest Ihrer Auto -Scaling-Konfiguration

Führen Sie Lasttests durch, um eine Skalierungskonfiguration auszuwählen, die Ihren Wünschen entspricht.

Bei den folgenden Richtlinien für Lasttests wird davon ausgegangen, dass Sie eine Skalierungsrichtlinie verwenden, die die vordefinierte Zielmetrik verwendetSageMakerVariantInvocationsPerInstance.

Bestimmen der Leistungseigenschaften

Führen Sie Lasttests durch, um die höchste Auslastung InvocationsPerInstance, die Ihre Produktionsvariante Ihres Modells verarbeiten kann, und die Latenz der Anfragen, während die Nebenläufigkeit zunimmt, zu finden.

Dieser Wert hängt vom ausgewählten Instance-Typ, von den Nutzlasten, die Kunden in der Regel an Ihr Modell senden sowie von der Performance der externen Abhängigkeiten Ihres Modells ab.

Um den Spitzenwert requests-per-second (RPS) zu ermitteln, den die Produktionsvariante Ihres Modells bewältigen kann, und die Latenz von Anfragen

Richten Sie mithilfe einer einzigen Instance einen Endpunkt für Ihr Modell ein. Informationen zum Einrichten eines Endpunkts finden Sie unter Stellen Sie das Modell für SageMaker KI-Hosting-Services bereit.
Verwenden Sie ein Tool für Lasttests, um eine steigende Anzahl von Parallelanforderungen zu generieren und die Anfragen pro Sekunde (RPS) sowie das Latenzmodell im Ausgang des Tools für Lasttests zu überwachen.

Anmerkung
Sie können requests-per-minute anstelle von RPS auch überwachen. In diesem Fall multiplizieren Sie in der Gleichung nicht mit 60, um SageMakerVariantInvocationsPerInstance, wie unten veranschaulicht, zu berechnen.

Steigt die Modelllatenz oder verringert sich der Anteil erfolgreicher Transaktionen, dann ist das die Höchstzahl der Anfragen pro Sekunde (RPS), die Ihr Modell verarbeiten kann.

Berechnen der Ziellast

Nachdem Sie die Leistungsmerkmale der Variante gefunden haben, können Sie die Höchstzahl der Anfragen pro Sekunde (RPS) bestimmen, die wir an eine Instance senden sollen. Die Schwellenwert, der für die Skalierung verwendet wurde, muss kleiner sein als dieser Maximalwert. Verwenden Sie die folgende Gleichung in Kombination mit Lasttests, um den richtigen Wert für die SageMakerVariantInvocationsPerInstance Zielmetrik in Ihrer Skalierungskonfiguration zu ermitteln.


SageMakerVariantInvocationsPerInstance = (MAX_RPS * SAFETY_FACTOR) * 60

Wo MAX_RPS die maximale, durch Sie zuvor festgelegte Anzahl der Anfragen pro Sekunde (RPS) darstellt, und SAFETY_FACTOR der Sicherheitsfaktor ist, den Sie gewählt haben, um sicherzustellen, dass Ihre Kunden die Höchstzahl der Anfragen (RPS) nicht überschreiten. Multiplizieren Sie mit 60, um von RPS so umzurechnen, dass es der CloudWatch Minutenmetrik entspricht, die SageMaker KI zur Implementierung von Auto Scaling verwendet (Sie müssen dies nicht tun, wenn Sie requests-per-minute stattdessen messen). invocations-per-minute requests-per-second

Anmerkung

SageMaker AI empfiehlt, dass Sie mit dem Testen mit einem Wert SAFETY_FACTOR von 0,5 beginnen. Testen Sie Ihre Skalierungskonfiguration, um sicherzustellen, dass sie so funktioniert, wie Sie es von Ihrem Modell erwarten, um den Kundenverkehr auf Ihrem Endpunkt sowohl zu erhöhen als auch zu verringern.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Skalieren Sie einen Endpunkt auf null Instanzen

Wird verwendet AWS CloudFormation , um eine Skalierungsrichtlinie zu erstellen