Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Améliorez la résilience grâce à l'inférence interrégionale
Lorsque vous exécutez l'inférence de modèles en mode à la demande, vos demandes peuvent être limitées par des quotas de service ou pendant les périodes de pointe d'utilisation. L'inférence entre régions vous permet de gérer de manière fluide les pics de trafic imprévus en utilisant le calcul entre différentes régions. Régions AWS Grâce à l'inférence entre régions, vous pouvez répartir le trafic sur plusieurs régions Régions AWS, ce qui permet d'augmenter le débit et d'améliorer la résilience pendant les périodes de pointe.
Pour utiliser l'inférence entre régions, vous devez inclure un profil d'inférence lors de l'exécution d'une inférence de modèle en spécifiant l'identifiant du profil d'inférence tel que modelId
lors de l'envoi d'une demande InvokeModelInvokeModelWithResponseStream, d'un Converse ou d'une demande. ConverseStream Un profil d'inférence est une abstraction d'un pool de ressources à la demande à partir de la configuration Régions AWS. Un profil d'inférence peut acheminer votre demande d'inférence provenant de votre région source vers une autre région configurée dans le pool. L'utilisation de l'inférence entre régions augmente le débit et améliore la résilience en acheminant dynamiquement les demandes d'invocation du modèle entre les régions définies dans le profil d'inférence. Facteurs de routage influant sur le trafic utilisateur, la demande et l'utilisation des ressources. La demande est traitée dans la région d'où elle provient.
L'inférence entre régions est actuellement disponible pour les fonctionnalités suivantes :
-
Inférence de modèle : vous pouvez utiliser l'inférence entre régions lorsque vous lancez l'invocation de modèles à l'aide des Playgrounds de la console Amazon Bedrock, ou lorsque vous utilisez InvokeModelles opérations,, Converse InvokeModelWithResponseStreamet. ConverseStream Pour de plus amples informations, veuillez consulter Soumettez des invites et générez des réponses grâce à l'inférence du modèle.
-
Génération de réponses dans la base de connaissances : vous pouvez utiliser l'inférence entre régions lorsque vous générez une réponse après avoir consulté une base de connaissances ou lorsque vous analysez des informations non textuelles dans une source de données. Pour plus d’informations, consultez Interrogez une base de connaissances et générez des réponses basées sur l'IA et Options d'analyse avancées.
-
Évaluation du modèle — Vous pouvez soumettre un profil d'inférence en tant que modèle à évaluer lorsque vous soumettez une tâche d'évaluation de modèle. Pour de plus amples informations, veuillez consulter Choisissez le modèle le plus performant à l'aide des évaluations d'Amazon Bedrock.
-
Gestion des promptes : vous pouvez utiliser l'inférence entre régions lorsque vous générez une réponse à une invite que vous avez créée dans Gestion des promptes. Pour plus d’informations, consultez Créez et stockez des instructions réutilisables avec Prompt Management dans Amazon Bedrock.
-
Flux rapides : vous pouvez utiliser l'inférence entre régions lorsque vous générez une réponse à une invite que vous définissez en ligne dans un nœud d'invite d'un flux d'invite. Pour de plus amples informations, veuillez consulter Créez un flux de travail d'IA end-to-end génératif avec Amazon Bedrock Prompt flows.
Vous pouvez également augmenter le débit d'un modèle en achetant le débit provisionné. Les profils d'inférence ne prennent actuellement pas en charge le débit provisionné.
Notez les informations suivantes concernant l'inférence entre régions :
-
L'utilisation de l'inférence entre régions n'entraîne aucun coût de routage supplémentaire. Le prix est calculé en fonction de la région à partir de laquelle vous appelez un profil d'inférence. Pour plus d'informations sur les tarifs, consultez les tarifs d'Amazon Bedrock
. -
Lorsque vous utilisez l'inférence entre régions, votre débit peut atteindre le double des quotas alloués dans la région dans laquelle se trouve le profil d'inférence. L'augmentation du débit ne s'applique qu'aux appels effectués via des profils d'inférence, le quota normal s'applique toujours si vous optez pour un modèle de demande d'invocation régional. Par exemple, si vous invoquez les États-Unis Anthropic Claude 3 Sonnet profil d'inférence dans l'est des États-Unis (Virginie du Nord) (us-east-1), votre débit peut atteindre jusqu'à 1 000 demandes par minute et 2 000 000 de jetons par minute. Pour connaître les quotas par défaut pour le débit à la demande, reportez-vous à la section Quotas d'exécution de la console Service Quotas Quotas pour Amazon Bedrock ou utilisez la console Service Quotas.
-
Les demandes d'inférence entre régions sont conservées dans les régions qui font partie du profil d'inférence utilisé. Par exemple, une demande effectuée à l'aide d'un profil d'inférence de l'UE est conservée dans les régions de l'UE.
Pour en savoir plus sur l'inférence entre régions, consultez Commencer à utiliser l'inférence entre régions dans Amazon Bedrock