Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Migliora la resilienza con l'inferenza tra regioni
Quando si esegue l'inferenza del modello in modalità on-demand, le richieste potrebbero essere limitate dalle quote di servizio o durante i periodi di picco di utilizzo. L'inferenza tra regioni consente di gestire senza problemi i picchi di traffico non pianificati utilizzando l'elaborazione tra diverse regioni. Regioni AWS Con l'inferenza interregionale, puoi distribuire il traffico su più regioni, garantendo un throughput più elevato e una maggiore resilienza durante i Regioni AWS periodi di picco della domanda.
Per utilizzare l'inferenza tra regioni, è necessario includere un profilo di inferenza durante l'esecuzione dell'inferenza del modello specificando l'ID del profilo di inferenza da utilizzare quando si invia una,, Converse o una richiesta. modelId
InvokeModelInvokeModelWithResponseStreamConverseStream Un profilo di inferenza è un'astrazione su un pool di risorse su richiesta proveniente da configurated. Regioni AWS Un profilo di inferenza può indirizzare la richiesta di inferenza proveniente dalla regione di origine verso un'altra regione configurata nel pool. L'uso dell'inferenza interregionale aumenta la velocità effettiva e migliora la resilienza instradando dinamicamente le richieste di invocazione del modello tra le regioni definite nel profilo di inferenza. Fattori di routing nel traffico degli utenti, nella domanda e nell'utilizzo delle risorse. La richiesta viene soddisfatta nella regione da cui proviene.
L'inferenza tra regioni è attualmente disponibile per le seguenti funzionalità:
-
Inferenza del modello: puoi utilizzare l'inferenza interregionale quando esegui la chiamata del modello utilizzando Playgrounds nella console Amazon Bedrock o quando usi,, Converse e operations. InvokeModelInvokeModelWithResponseStreamConverseStream Per ulteriori informazioni, consulta Invia richieste e genera risposte con l'inferenza del modello.
-
Generazione di risposte nella knowledge base: puoi utilizzare l'inferenza interregionale quando generi una risposta dopo aver interrogato una knowledge base o quando analizzi informazioni non testuali in una fonte di dati. Per ulteriori informazioni, consulta Interroga una base di conoscenze e genera risposte basate sull'intelligenza artificiale e Opzioni di analisi avanzate.
-
Valutazione del modello: è possibile inviare un profilo di inferenza come modello da valutare quando si invia un lavoro di valutazione del modello. Per ulteriori informazioni, consulta Scegli il modello con le prestazioni migliori utilizzando le valutazioni di Amazon Bedrock.
-
Gestione dei prompt: è possibile utilizzare l'inferenza interregionale per generare una risposta a un prompt creato in Prompt management. Per ulteriori informazioni, consulta Crea e archivia richieste riutilizzabili con la gestione tempestiva in Amazon Bedrock
-
Flussi di prompt: è possibile utilizzare l'inferenza interregionale per generare una risposta a un prompt definito in linea in un nodo di prompt in un flusso di prompt. Per ulteriori informazioni, consulta Crea un flusso di lavoro AI end-to-end generativo con i flussi Amazon Bedrock Prompt.
È inoltre possibile aumentare la velocità effettiva di un modello acquistando Provisioned Throughput. I profili di inferenza attualmente non supportano Provisioned Throughput.
Notate le seguenti informazioni sull'inferenza tra regioni:
-
Non sono previsti costi di routing aggiuntivi per l'utilizzo dell'inferenza tra regioni. Il prezzo viene calcolato in base alla regione da cui si richiama un profilo di inferenza. Per informazioni sui prezzi, consulta i prezzi di Amazon Bedrock
. -
Quando si utilizza l'inferenza tra regioni, la velocità effettiva può raggiungere il doppio delle quote allocate nella regione in cui si trova il profilo di inferenza. L'aumento della velocità effettiva si applica solo alle chiamate eseguite tramite profili di inferenza, la quota normale si applica comunque se si opta per la richiesta di invocazione del modello locale. Ad esempio, se si invocano gli Stati Uniti Anthropic Claude 3 Sonnet con il profilo di inferenza negli Stati Uniti orientali (Virginia settentrionale) (us-east-1), il throughput può raggiungere fino a 1.000 richieste al minuto e 2.000.000 di token al minuto. Per visualizzare le quote predefinite per la velocità effettiva su richiesta, consulta la sezione Runtime quote nella console Service Quotas Quote per Amazon Bedrock o utilizza la console Service Quotas.
-
Le richieste di inferenza tra regioni vengono conservate all'interno delle regioni che fanno parte del profilo di inferenza utilizzato. Ad esempio, una richiesta effettuata con un profilo di inferenza dell'UE viene conservata all'interno delle regioni dell'UE.
Per ulteriori informazioni sull'inferenza tra regioni, consulta Guida introduttiva all'inferenza interregionale in Amazon Bedrock