On-Demand-Inferenz für benutzerdefinierte Modelle - Amazon Nova

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

On-Demand-Inferenz für benutzerdefinierte Modelle

On-Demand-Inferenz (OD) ermöglicht es Ihnen, Inferenzen für Ihre benutzerdefinierten Amazon Nova-Modelle auszuführen, ohne die bereitgestellten Durchsatzendpunkte aufrechtzuerhalten. Dies hilft Ihnen, Kosten zu optimieren und effizient zu skalieren. Bei On-Demand-Inferenz werden Ihnen Gebühren auf der Grundlage der Nutzung berechnet, gemessen in Tokens, sowohl bei eingehender als auch bei ausgehender Nutzung.

Anforderungen an die Kompatibilität

Es gelten die folgenden Kompatibilitätsanforderungen:

  • Die OD-Inferenz wird für benutzerdefinierte Verständnismodelle von Amazon Nova Pro, Lite und Micro unterstützt. OD-Inferenz wird für Nova-Modelle zur benutzerdefinierten Inhaltsgenerierung nicht unterstützt.

  • OD-Inferenz wird für Amazon Nova-Modelle für benutzerdefiniertes Verständnis unterstützt, die nach dem 16. Juli 2025 trainiert wurden. Benutzerdefinierte Modelle, die vor dem 16. Juli 2025 trainiert wurden, sind nicht mit OD-Inferenz kompatibel.

  • Anpassung von Amazon Bedrock: Die OD-Inferenz wird für Modelle unterstützt, die mit der Amazon Bedrock-Anpassung angepasst wurden, und für Schülermodelle, die mit Amazon Bedrock aus einem Lehrermodell destilliert wurden.

  • SageMaker KI-Anpassung: Für in SageMaker KI angepasste Modelle wird die OD-Inferenz nur für Parameter-Efficient Fine-Tuned (PEFT) -Modelle unterstützt, wenn das Modell auf Amazon Bedrock gehostet wird. Dazu gehören Direct Preference Optimization plus PEFT. Die OD-Inferenz wird für fein abgestimmte Full-Rank-Modelle nicht unterstützt.

Modelltraining und Inferenz

Wenn Sie nach dem 16. Juli 2025 ein neues benutzerdefiniertes Amazon Nova Pro-, Lite- oder Micro-Modell auf Amazon Bedrock oder SageMaker AI mit PEFT trainieren, ist das Modell automatisch sowohl mit bereitgestellten als auch mit On-Demand-Inferenzoptionen kompatibel. Sie können Ihre bevorzugte Inferenzmethode auswählen, wenn Sie Ihr Modell bereitstellen.

Gehen Sie wie folgt vor, um die OD-Inferenz mit einem Modell zu verwenden, das nach dem 16. Juli 2025 trainiert wurde:

  1. Erstellen Sie einen neuen Feinabstimmungsauftrag entweder mit der Amazon Bedrock Customization API oder der SageMaker AI Customization API.

  2. Stellen Sie das neu trainierte Modell mithilfe der CreateCustomModel API auf Amazon Bedrock bereit.

  3. Stellen Sie es mithilfe der API für On-Demand-Inferenzen bereit. CustomModelDeployment

Ratenbegrenzungen

Die folgenden Grenzwerte für Anfragen pro Minute (RPM) und Tokens pro Minute (TPM) gelten für On-Demand-Inferenzanfragen:

Basismodell für benutzerdefiniertes Modell Bereitstellung pro Minute pro benutzerdefiniertem Modell TPM pro Bereitstellung eines benutzerdefinierten Modells
Amazon Nova Micro 200 400 000
Amazon Nova Lite 200 400 000
Amazon Nova Pro 20 80 000

Weitere Informationen zu den für Amazon Nova verfügbaren Kontingenten finden Sie unterKontingente für Amazon Nova.

Latency

Sie können mit einem end-to-end Latenzunterschied (d. h. Time To First Token (TTFT)) von 20-55% zwischen dem Aufruf des Basismodells und dem Adapter rechnen. Der genaue Latenzwert variiert je nach Modellgröße und entspricht den Industriestandards.