Utiliser un profil d'inférence interrégional (défini par le système)

Augmenter le débit grâce à l'inférence interrégionale

Avec l'inférence interrégionale, vous pouvez choisir soit un profil d'inférence interrégional lié à une zone géographique spécifique (comme les États-Unis ou l'UE), soit un profil d'inférence global. Lorsque vous choisissez un profil d'inférence lié à une zone géographique spécifique, Amazon Bedrock sélectionne automatiquement le commercial optimal au Région AWS sein de cette zone géographique pour traiter votre demande d'inférence. Grâce aux profils d'inférence globaux, Amazon Bedrock sélectionne automatiquement la publicité optimale Région AWS pour traiter la demande, ce qui optimise les ressources disponibles et augmente le débit du modèle.

Lorsque vous exécutez l'inférence de modèles en mode à la demande, vos demandes peuvent être limitées par des quotas de service ou pendant les périodes de pointe d'utilisation. L'inférence entre régions vous permet de gérer de manière fluide les pics de trafic imprévus en utilisant le calcul entre différentes régions. Régions AWS Grâce à l'inférence entre régions, vous pouvez répartir le trafic entre plusieurs régions Régions AWS, ce qui permet d'augmenter le débit.

Vous pouvez également augmenter le débit d'un modèle en achetant le débit provisionné. Les profils d'inférence ne prennent actuellement pas en charge le débit provisionné.

Pour voir les régions et les modèles avec lesquels vous pouvez utiliser des profils d'inférence pour exécuter une inférence entre régions, reportez-vous à. Régions et modèles pris en charge pour les profils d'inférence

Les profils d'inférence entre régions (définis par le système) sont nommés d'après le modèle qu'ils prennent en charge et définis par les régions qu'ils prennent en charge. Pour comprendre comment un profil d'inférence interrégional gère vos demandes, consultez les définitions suivantes :

Région source : région à partir de laquelle vous effectuez la demande d'API qui spécifie le profil d'inférence.
Région de destination : région vers laquelle le service Amazon Bedrock peut acheminer la demande depuis votre région source.

Lorsque vous invoquez un profil d'inférence interrégional dans Amazon Bedrock, votre demande provient d'une région source et est automatiquement acheminée vers l'une des régions de destination définies dans ce profil, optimisant ainsi les performances. Les régions de destination pour les profils d'inférence interrégionaux mondiaux incluent toutes les régions commerciales.

Note

Les régions de destination d'un profil d'inférence interrégional peuvent inclure des régions facultatives, qui sont des régions que vous devez explicitement activer au niveau de l'organisation Compte AWS ou au niveau de l'organisation. Pour en savoir plus, consultez la section Activer ou désactiver Régions AWS dans votre compte. Lorsque vous utilisez un profil d'inférence interrégional, votre demande d'inférence peut être acheminée vers n'importe laquelle des régions de destination du profil, même si vous n'avez pas activé ces régions dans votre compte.

Les politiques de contrôle des services (SCPs) et AWS Identity and Access Management (IAM) fonctionnent ensemble pour contrôler les endroits où l'inférence entre régions est autorisée. En utilisant SCPs, vous pouvez contrôler les régions qu'Amazon Bedrock peut utiliser pour l'inférence, et en utilisant les politiques IAM, vous pouvez définir les utilisateurs ou les rôles autorisés à exécuter l'inférence. Si une région de destination d'un profil d'inférence interrégional est bloquée dans votre profil SCPs, la demande échouera même si les autres régions restent autorisées. Pour garantir un fonctionnement efficace de l'inférence entre régions, vous pouvez mettre à jour vos politiques SCPs et celles d'IAM afin d'autoriser toutes les actions d'inférence Amazon Bedrock requises (par exemple, bedrock:InvokeModel* oubedrock:CreateModelInvocationJob) dans toutes les régions de destination incluses dans le profil d'inférence que vous avez choisi. Pour en savoir plus, consultez Activer l'inférence interrégionale d'Amazon Bedrock dans les environnements multi-comptes.

Note

Certains profils d'inférence sont acheminés vers différentes régions de destination en fonction de la région source à partir de laquelle vous les appelez. Par exemple, si vous appelez us.anthropic.claude-3-haiku-20240307-v1:0 depuis l'est des États-Unis (Ohio), il peut acheminer les demandes vers us-east-1us-east-2, ouus-west-2, mais si vous l'appelez depuis l'ouest des États-Unis (Oregon), il peut acheminer les demandes uniquement vers us-east-1 etus-west-2.

Pour vérifier les régions source et de destination d'un profil d'inférence, vous pouvez effectuer l'une des opérations suivantes :

Développez la section correspondante dans la liste des profils d'inférence interrégionaux pris en charge.
Envoyez une GetInferenceProfiledemande avec un point de terminaison du plan de contrôle Amazon Bedrock depuis une région source et spécifiez le nom de ressource Amazon (ARN) ou l'ID du profil d'inférence dans le inferenceProfileIdentifier champ. Le models champ de la réponse correspond à une liste de modèles ARNs dans laquelle vous pouvez identifier chaque région de destination.

Note

Le profil d'inférence interrégional global pour un modèle spécifique peut changer au fil du temps en raison de l' AWS ajout de nouvelles régions commerciales dans lesquelles vos demandes peuvent être traitées. Toutefois, si un profil d'inférence est lié à une zone géographique (comme les États-Unis, l'UE ou la région APAC), la liste des régions de destination ne changera jamais. AWS peut créer de nouveaux profils d'inférence intégrant de nouvelles régions. Vous pouvez mettre à jour vos systèmes pour utiliser ces profils d'inférence IDs en remplaçant les nouveaux dans votre configuration.

Le profil d'inférence interrégional mondial n'est actuellement pris en charge sur le Anthropic Claude Sonnet 4 modèle que pour les régions sources suivantes : USA Ouest (Oregon), USA Est (Virginie du Nord), USA Est (Ohio), Europe (Irlande) et Asie-Pacifique (Tokyo). Le profil d'inférence des régions de destination pour le monde inclut toutes les régions commerciales Régions AWS.

Notez les informations suivantes concernant l'inférence interrégionale :

L'utilisation de l'inférence interrégionale n'entraîne aucun coût de routage supplémentaire. Le prix est calculé en fonction de la région à partir de laquelle vous appelez un profil d'inférence. Pour plus d'informations sur les tarifs, consultez les tarifs d'Amazon Bedrock.
Les profils d'inférence interrégionaux mondiaux fournissent un débit supérieur à celui d'un profil d'inférence lié à une zone géographique particulière. Un profil d'inférence lié à une zone géographique particulière offre un débit supérieur à celui de l'inférence portant sur une seule région.
Pour voir les quotas par défaut pour le débit interrégional lorsque vous utilisez des profils d'inférence liés à une zone géographique (comme les États-Unis, l'UE et la région APAC), reportez-vous aux demandes d'inférence de modèles interrégionales par minute pour $ {Model} et aux jetons d'inférence de modèles interrégionaux par minute pour les valeurs $ {Model} dans les quotas de service Amazon Bedrock dans la référence générale.AWS
Pour voir les quotas par défaut pour le débit interrégional lors de l'utilisation de profils d'inférence globaux, reportez-vous aux demandes d'inférence de modèles interrégionaux par minute pour $ {Model} et aux jetons d'inférence de modèles interrégionaux par minute pour les valeurs $ {Model} dans les quotas de service Amazon Bedrock dans la référence générale.AWS

Vous pouvez demander, consulter et gérer des quotas pour le profil d'inférence interrégional global à partir de la console Service Quotas ou à l'aide des commandes AWS CLI dans la région USA Est (Virginie du Nord). Notez que les quotas d'inférence interrégionaux globaux n'apparaîtront pas dans la console Service Quotas ou dans la AWS CLI pour les autres régions sources répertoriées dans le profil d'inférence global.
Les demandes d'inférence interrégionales relatives à un profil d'inférence lié à une zone géographique (États-Unis, UE et Asie-Pacifique, par exemple) sont conservées dans les limites de la Régions AWS zone géographique dans laquelle les données se trouvent à l'origine. Par exemple, une demande faite aux États-Unis est conservée Régions AWS aux États-Unis. Bien que les données restent stockées uniquement dans la région source, vos invites de saisie et les résultats de sortie peuvent être déplacés en dehors de votre région source lors de l'inférence entre régions. Toutes les données seront transmises cryptées sur le réseau sécurisé d'Amazon.
AWS Les services fournis par Amazon Bedrock peuvent également utiliser CRIS. Consultez la documentation spécifique au service pour plus de détails.

Utiliser un profil d'inférence interrégional (défini par le système)

Pour utiliser l'inférence entre régions, vous devez inclure un profil d'inférence lorsque vous exécutez l'inférence de modèle de la manière suivante :

Inférence de modèle à la demande : spécifiez l'identifiant du profil d'inférence modelId lors de l'envoi d'une demande InvokeModel InvokeModelWithResponseStream, d'un Converse ou d'une demande. ConverseStream Un profil d'inférence définit une ou plusieurs régions vers lesquelles il peut acheminer les demandes d'inférence provenant de votre région source. L'utilisation de l'inférence entre régions augmente le débit et les performances en acheminant dynamiquement les demandes d'invocation du modèle entre les régions définies dans le profil d'inférence. Facteurs de routage influant sur le trafic utilisateur, la demande et l'utilisation des ressources. Pour de plus amples informations, consultez Soumettez des invites et générez des réponses grâce à l'inférence du modèle.
Inférence par lots — Soumettez les demandes de manière asynchrone avec l'inférence par lots en spécifiant l'ID du profil d'inférence lors de l'envoi d'une demande. modelId CreateModelInvocationJob L'utilisation d'un profil d'inférence vous permet d'utiliser le calcul sur plusieurs Régions AWS et d'accélérer les temps de traitement de vos tâches par lots. Une fois le travail terminé, vous pouvez récupérer les fichiers de sortie depuis le compartiment Amazon S3 dans la région source.
Agents — Spécifiez l'ID du profil d'inférence dans le foundationModel champ d'une CreateAgentdemande. Pour de plus amples informations, veuillez consulter Création et configuration manuelles de l'agent.
Génération de réponses dans la base de connaissances : vous pouvez utiliser l'inférence entre régions lorsque vous générez une réponse après avoir consulté une base de connaissances. Pour de plus amples informations, veuillez consulter Testez votre base de connaissances à l'aide de requêtes et de réponses.
Évaluation du modèle — Vous pouvez soumettre un profil d'inférence en tant que modèle à évaluer lorsque vous soumettez une tâche d'évaluation de modèle. Pour de plus amples informations, veuillez consulter Évaluez les performances des ressources Amazon Bedrock.
Gestion des promptes : vous pouvez utiliser l'inférence entre régions lorsque vous générez une réponse à une invite que vous avez créée dans Gestion des promptes. Pour de plus amples informations, consultez Créez et stockez des instructions réutilisables avec Prompt Management dans Amazon Bedrock.
Flux rapides : vous pouvez utiliser l'inférence entre régions lorsque vous générez une réponse à une invite que vous définissez en ligne dans un nœud d'invite d'un flux d'invite. Pour de plus amples informations, veuillez consulter Créez un flux de travail d'IA end-to-end génératif avec Amazon Bedrock Flows.

Note

Le profil d'inférence global est pris en charge pour l'inférence de modèles à la demande, l'inférence par lots, les agents, l'évaluation de modèles, la gestion rapide et les flux rapides.

Pour savoir comment utiliser un profil d'inférence pour envoyer des demandes d'invocation de modèles entre régions, consultez. Utiliser un profil d'inférence lors de l'invocation du modèle

Pour en savoir plus sur l'inférence entre régions, consultez Commencer à utiliser l'inférence entre régions dans Amazon Bedrock.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Traitement des cas d'utilisation

Débit provisionné : augmentez le débit du modèle