Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Erhöhen Sie den Durchsatz mit regionsübergreifender Inferenz
Wenn Sie Model Inference im On-Demand-Modus ausführen, sind Ihre Anfragen möglicherweise durch Servicekontingenten oder zu Spitzenzeiten eingeschränkt. Dank regionsübergreifender Inferenz können Sie ungeplante Datenverkehrsspitzen problemlos bewältigen, indem Sie Rechenleistung auf verschiedene Arten nutzen. AWS-Regionen Mit regionsübergreifender Inferenz können Sie den Datenverkehr auf mehrere verteilen und so einen höheren Durchsatz erzielen. AWS-Regionen
Um die regionsübergreifende Inferenz zu verwenden, fügen Sie ein Inferenzprofil hinzu, wenn Sie die Modellinferenz auf folgende Weise ausführen:
-
Modellinferenz auf Abruf — Geben Sie die ID des Inferenzprofils an, die
modelId
beim Senden einer InvokeModel, InvokeModelWithResponseStreamConverse oder -Anforderung verwendet wird. ConverseStream Ein Inferenzprofil definiert eine oder mehrere Regionen, an die es Inferenzanfragen weiterleiten kann, die aus Ihrer Quellregion stammen. Die Verwendung von regionsübergreifender Inferenz erhöht den Durchsatz und die Leistung, indem Modellaufrufanforderungen dynamisch über die im Inferenzprofil definierten Regionen weitergeleitet werden. Routing beeinflusst den Benutzerverkehr, den Bedarf und die Nutzung von Ressourcen. Weitere Informationen finden Sie unter Senden Sie Eingabeaufforderungen und generieren Sie Antworten mit Modellinferenz -
Batch-Inferenz — Senden Sie Anfragen asynchron mit Batch-Inferenz, indem Sie beim Senden einer Anfrage die ID des Inferenzprofils
modelId
als die angeben. CreateModelInvocationJob Durch die Verwendung eines Inferenzprofils können Sie die Rechenleistung für mehrere Aufgaben nutzen AWS-Regionen und so schnellere Verarbeitungszeiten für Ihre Batch-Jobs erzielen. Nach Abschluss des Jobs können Sie die Ausgabedateien aus dem Amazon S3 S3-Bucket in der Quellregion abrufen. -
Generierung von Antworten in der Wissensdatenbank — Sie können regionsübergreifende Inferenzen verwenden, wenn Sie nach der Abfrage einer Wissensdatenbank eine Antwort generieren oder wenn Sie nicht-textuelle Informationen in einer Datenquelle analysieren. Weitere Informationen erhalten Sie unter Testen Sie Ihre Wissensdatenbank mit Fragen und Antworten und Parsing-Optionen für Ihre Datenquelle.
-
Modellevaluierung — Sie können ein Inferenzprofil als Modell zur Bewertung einreichen, wenn Sie einen Modellevaluierungsauftrag einreichen. Weitere Informationen finden Sie unter Bewerten Sie die Leistung der Amazon Bedrock-Ressourcen.
-
Prompt-Verwaltung — Sie können regionsübergreifende Inferenzen verwenden, wenn Sie eine Antwort auf eine Aufforderung generieren, die Sie in der Prompt-Verwaltung erstellt haben. Weitere Informationen finden Sie unter Erstellen und speichern Sie wiederverwendbare Eingabeaufforderungen mit der Prompt-Verwaltung in Amazon Bedrock
-
Eingabeaufforderungsflüsse — Sie können regionsübergreifende Inferenzen verwenden, wenn Sie eine Antwort für eine Aufforderung generieren, die Sie inline in einem Prompt-Knoten in einem Prompt-Flow definieren. Weitere Informationen finden Sie unter Erstellen Sie mit Amazon Bedrock Flows einen end-to-end generativen KI-Workflow.
Informationen zu den Regionen und Modellen, mit denen Sie Inferenzprofile verwenden können, um regionsübergreifende Inferenzen durchzuführen, finden Sie unter. Unterstützte Regionen und Modelle für Inferenzprofile
Sie können den Durchsatz für ein Modell auch erhöhen, indem Sie Provisioned Throughput erwerben. Inferenzprofile unterstützen derzeit Provisioned Throughput nicht.
Informationen zur Verwendung eines Inferenzprofils zum Senden von Modellaufrufanforderungen über Regionen hinweg finden Sie unter. Verwenden Sie ein Inferenzprofil beim Modellaufruf
Beachten Sie die folgenden Informationen zur regionsübergreifenden Inferenz:
-
Für die Verwendung von regionsübergreifender Inferenz fallen keine zusätzlichen Routing-Kosten an. Der Preis wird auf der Grundlage der Region berechnet, von der aus Sie ein Inferenzprofil aufrufen. Preisinformationen finden Sie unter Amazon Bedrock — Preise
. -
Wenn Sie regionsübergreifende Inferenz verwenden, kann Ihr Durchsatz bis zu doppelt so hoch sein wie die Standardkontingente in der Region, in der sich das Inferenzprofil befindet. Die Erhöhung des Durchsatzes gilt nur für Aufrufe, die über Inferenzprofile ausgeführt werden. Das reguläre Kontingent gilt weiterhin, wenn Sie sich für eine regionsinterne Modellaufrufanforderung entscheiden. Wenn Sie sich beispielsweise auf die USA berufen Anthropic Claude 3 Sonnet Inferenzprofil in us-east-1, Ihr Durchsatz kann bis zu 1.000 Anfragen pro Minute und 2.000.000 Token pro Minute erreichen. Die Standardkontingente für den On-Demand-Durchsatz finden Sie im Abschnitt Runtime-Kontingente in Kontingente für Amazon Bedrock oder verwenden Sie die Service-Kontingents-Konsole.
-
Regionsübergreifende Inferenzanfragen werden innerhalb der Regionen gespeichert, die Teil des verwendeten Inferenzprofils sind. Beispielsweise wird eine Anfrage, die mit einem EU-Inferenzprofil gestellt wurde, innerhalb der EU-Regionen gespeichert.
Weitere Informationen zur regionsübergreifenden Inferenz finden Sie unter Erste Schritte mit regionsübergreifender Inferenz in Amazon Bedrock.