Améliorez la résilience grâce à l'inférence interrégionale - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Améliorez la résilience grâce à l'inférence interrégionale

Lorsque vous exécutez l'inférence de modèles en mode à la demande, vos demandes peuvent être limitées par des quotas de service ou pendant les périodes de pointe d'utilisation. L'inférence entre régions vous permet de gérer de manière fluide les pics de trafic imprévus en utilisant le calcul entre différentes régions. Régions AWS Grâce à l'inférence entre régions, vous pouvez répartir le trafic sur plusieurs régions Régions AWS, ce qui permet d'augmenter le débit et d'améliorer la résilience pendant les périodes de pointe.

Pour utiliser l'inférence entre régions, vous devez inclure un profil d'inférence lors de l'exécution d'une inférence de modèle en spécifiant l'identifiant du profil d'inférence tel que modelId lors de l'envoi d'une demande InvokeModelInvokeModelWithResponseStream, d'un Converse ou d'une demande. ConverseStream Un profil d'inférence est une abstraction d'un pool de ressources à la demande à partir de la configuration Régions AWS. Un profil d'inférence peut acheminer votre demande d'inférence provenant de votre région source vers une autre région configurée dans le pool. L'utilisation de l'inférence entre régions augmente le débit et améliore la résilience en acheminant dynamiquement les demandes d'invocation du modèle entre les régions définies dans le profil d'inférence. Facteurs de routage influant sur le trafic utilisateur, la demande et l'utilisation des ressources. La demande est traitée dans la région d'où elle provient.

L'inférence entre régions est actuellement disponible pour les fonctionnalités suivantes :

Vous pouvez également augmenter le débit d'un modèle en achetant le débit provisionné. Les profils d'inférence ne prennent actuellement pas en charge le débit provisionné.

Notez les informations suivantes concernant l'inférence entre régions :

  • L'utilisation de l'inférence entre régions n'entraîne aucun coût de routage supplémentaire. Le prix est calculé en fonction de la région à partir de laquelle vous appelez un profil d'inférence. Pour plus d'informations sur les tarifs, consultez les tarifs d'Amazon Bedrock.

  • Lorsque vous utilisez l'inférence entre régions, votre débit peut atteindre le double des quotas alloués dans la région dans laquelle se trouve le profil d'inférence. L'augmentation du débit ne s'applique qu'aux appels effectués via des profils d'inférence, le quota normal s'applique toujours si vous optez pour un modèle de demande d'invocation régional. Par exemple, si vous invoquez les États-Unis Anthropic Claude 3 Sonnet profil d'inférence dans l'est des États-Unis (Virginie du Nord) (us-east-1), votre débit peut atteindre jusqu'à 1 000 demandes par minute et 2 000 000 de jetons par minute. Pour connaître les quotas par défaut pour le débit à la demande, reportez-vous à la section Quotas d'exécution de la console Service Quotas Quotas pour Amazon Bedrock ou utilisez la console Service Quotas.

  • Les demandes d'inférence entre régions sont conservées dans les régions qui font partie du profil d'inférence utilisé. Par exemple, une demande effectuée à l'aide d'un profil d'inférence de l'UE est conservée dans les régions de l'UE.

Pour en savoir plus sur l'inférence entre régions, consultez Commencer à utiliser l'inférence entre régions dans Amazon Bedrock.