Richiamo di modelli in diverse regioni AWS

Come funziona l'inferenza in Amazon Bedrock

Quando inviate un input a un modello, il modello prevede una probabile sequenza di token che segue e restituisce tale sequenza come output. Amazon Bedrock ti offre la possibilità di eseguire inferenze con il modello di base che preferisci. Quando esegui l'inferenza, fornisci i seguenti input:

Prompt: input fornito al modello affinché questo generi una risposta. Per informazioni sulla scrittura dei prompt, consulta Concetti ingegneristici rapidi. Per informazioni sulla protezione dagli attacchi di pronta iniezione, vedere. Sicurezza di iniezione rapida
Modello: un modello di base o un profilo di inferenza con cui eseguire l'inferenza. Il modello o il profilo di inferenza scelto specifica anche un livello di throughput, che definisce il numero e la velocità dei token di input e output che è possibile elaborare. Per ulteriori informazioni sui modelli di base disponibili in Amazon Bedrock, consultaInformazioni sul modello Amazon Bedrock Foundation. Per ulteriori informazioni sui profili di inferenza, consulta. Imposta una risorsa di invocazione del modello utilizzando i profili di inferenza Per ulteriori informazioni sull'aumento della velocità effettiva, vedere Aumenta la produttività con l'inferenza tra regioni e. Aumenta la capacità di invocazione del modello con Provisioned Throughput in Amazon Bedrock
Parametri di inferenza: un set di valori che possono essere adattati per limitare o influenzare la risposta del modello. Per informazioni sui parametri di inferenza, consulta Influenza la generazione della risposta con parametri di inferenza e Parametri della richiesta di inferenza e campi di risposta per i modelli di base.

Richiamo di modelli in diverse regioni AWS

Quando si richiama un modello, si sceglie Regione AWS in che modo richiamarlo. Le quote per la frequenza e la dimensione delle richieste che è possibile effettuare dipendono dalla regione. Puoi trovare queste quote cercando le seguenti quote nelle quote del servizio Amazon Bedrock:

Richieste di inferenza di modelli su richiesta al minuto per ${Model}
InvokeModel Token su richiesta al minuto per ${Model}

Puoi anche richiamare un profilo di inferenza anziché il modello di base stesso. Un profilo di inferenza definisce un modello e una o più regioni verso le quali il profilo di inferenza può indirizzare le richieste di invocazione del modello. Richiamando un profilo di inferenza che include più regioni, è possibile aumentare la velocità effettiva. Per ulteriori informazioni, consulta Aumenta la produttività con l'inferenza tra regioni. Per visualizzare le quote relative alla frequenza e alla dimensione delle richieste che puoi effettuare con un profilo di inferenza, cerca le seguenti quote nelle quote del servizio Amazon Bedrock:

Richieste interregionali al minuto per InvokeModel ${Model}
InvokeModel Token interregionali al minuto per ${Model}
InvokeModel Richieste globali interregionali al minuto per ${Model}
InvokeModel Token globali interregionali al minuto per ${Model}

Le richieste inoltrate a una regione possono essere servite da zone locali che condividono la stessa regione principale. Ad esempio, le richieste effettuate a US East (Virginia settentrionale) (us-east-1) possono essere servite da qualsiasi zona locale ad essa associata, come Atlanta, Stati Uniti (us-east-1-atl-2a).

Lo stesso principio si applica quando si utilizza l'inferenza tra regioni. Ad esempio, le richieste inviate al profilo di Anthropic Claude 3 Haiku inferenza degli Stati Uniti possono essere servite da qualsiasi zona locale la cui regione madre si trova negli Stati Uniti, come Seattle, Stati Uniti (us-west-2-sea-1a). Quando vengono aggiunte nuove zone locali AWS, queste verranno aggiunte anche all'endpoint di inferenza interregionale corrispondente.

Per visualizzare un elenco degli endpoint locali e delle Regioni principali a cui sono associati, vedi AWS Local Zones Locations.

Quando richiami un profilo di inferenza interregionale in Amazon Bedrock, la tua richiesta proviene da una regione di origine e viene indirizzata automaticamente a una delle regioni di destinazione definite in quel profilo, ottimizzando le prestazioni. Il profilo di inferenza Regions for Global Cross-region include tutte le regioni commerciali.

Il profilo di inferenza globale interregionale per un modello specifico può cambiare nel tempo man mano che vengono AWS aggiunte altre regioni commerciali in cui è possibile elaborare le richieste. Tuttavia, se un profilo di inferenza è legato a un'area geografica (come Stati Uniti, UE o APAC), l'elenco delle regioni di destinazione non cambierà mai. AWS potrebbe creare nuovi profili di inferenza che incorporano nuove regioni. È possibile aggiornare i sistemi per utilizzare questi profili di inferenza modificando la IDs configurazione con quelli nuovi.

Nota

Le regioni di destinazione in un profilo di inferenza interregionale possono includere regioni opzionali, ovvero regioni che è necessario abilitare esplicitamente a livello di organizzazione. Account AWS Per ulteriori informazioni, consulta Abilita o disabilita Regioni AWS nel tuo account. Quando utilizzi un profilo di inferenza interregionale, la tua richiesta di inferenza può essere indirizzata a una qualsiasi delle regioni di destinazione del profilo, anche se non hai attivato tali regioni nel tuo account.

Le policy di controllo dei servizi (SCPs) e le politiche AWS Identity and Access Management (IAM) collaborano per controllare dove è consentita l'inferenza tra regioni. In questo modo puoi controllare quali regioni Amazon Bedrock può utilizzare per l'inferenza e, utilizzando le policy IAM, puoi definire quali utenti o ruoli sono autorizzati a eseguire l'inferenza. SCPs Se una regione di destinazione in un profilo di inferenza interregionale è bloccata nel tuo SCPs, la richiesta avrà esito negativo anche se le altre regioni rimangono consentite. Per garantire un funzionamento efficiente con l'inferenza tra regioni, puoi aggiornare le tue policy SCPs e IAM per consentire tutte le azioni di inferenza Amazon Bedrock richieste (ad esempio, bedrock:InvokeModel* obedrock:CreateModelInvocationJob) in tutte le regioni di destinazione incluse nel profilo di inferenza scelto. Per ulteriori informazioni, consulta https://aws.amazon.com/blogs/machine-learning/enable-amazon-bedrock-cross-region-inference-in-multi-account-environments/ Attivazione dell'inferenza interregionale di Amazon Bedrock in ambienti con più account.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Inferenza: genera risposte

Influenza la generazione della risposta con parametri di inferenza