Invoquer des modèles dans différentes régions AWS

Comment fonctionne l'inférence dans Amazon Bedrock

Lorsque vous soumettez une entrée à un modèle, le modèle prédit une séquence probable de jetons qui suit et renvoie cette séquence en sortie. Amazon Bedrock vous permet d'effectuer des inférences avec le modèle de base de votre choix. Lorsque vous exécutez l'inférence, vous fournissez les entrées suivantes :

Invite : entrée fournie au modèle afin qu’il génère une réponse. Pour en savoir plus sur la création d’invites, consultez Concepts d'ingénierie rapides. Pour plus d'informations sur la protection contre les attaques par injection rapide, consultezSécurité des injections rapides.
Modèle : modèle de base ou profil d'inférence avec lequel exécuter l'inférence. Le modèle ou le profil d'inférence que vous choisissez définit également un niveau de débit, qui définit le nombre et le débit de jetons d'entrée et de sortie que vous pouvez traiter. Pour plus d'informations sur les modèles de fondations disponibles sur Amazon Bedrock, consultezInformations sur le modèle de fondation Amazon Bedrock. Pour plus d'informations sur les profils d'inférence, consultezConfiguration d'un modèle de ressource d'invocation à l'aide de profils d'inférence. Pour plus d'informations sur l'augmentation du débit, reportez-vous aux sections Augmenter le débit grâce à l'inférence interrégionale etAugmentez la capacité d'invocation des modèles grâce au débit provisionné dans Amazon Bedrock.
Paramètres d’inférence : ensemble de valeurs qui peuvent être ajustées pour limiter ou influencer la réponse du modèle. Pour en savoir plus sur les paramètres d’inférence, consultez Influencez la génération de réponses avec des paramètres d'inférence et Paramètres de demande d'inférence et champs de réponse pour les modèles de base.

Invoquer des modèles dans différentes régions AWS

Lorsque vous invoquez un modèle, vous choisissez le modèle Région AWS dans lequel vous souhaitez l'invoquer. Les quotas de fréquence et de taille des demandes que vous pouvez faire dépendent de la région. Vous pouvez trouver ces quotas en recherchant les quotas suivants sur Amazon Bedrock service quotas :

Demandes d'inférence de modèles à la demande par minute pour ${Model}
InvokeModel Jetons à la demande par minute pour ${Model}

Vous pouvez également invoquer un profil d'inférence au lieu du modèle de base lui-même. Un profil d'inférence définit un modèle et une ou plusieurs régions vers lesquelles le profil d'inférence peut acheminer les demandes d'invocation de modèle. En invoquant un profil d'inférence qui inclut plusieurs régions, vous pouvez augmenter votre débit. Pour de plus amples informations, veuillez consulter Augmenter le débit grâce à l'inférence interrégionale. Pour connaître les quotas relatifs à la fréquence et à la taille des demandes que vous pouvez effectuer à l'aide d'un profil d'inférence, recherchez les quotas suivants sur Amazon Bedrock service quotas :

InvokeModel Demandes interrégionales par minute pour ${Model}
InvokeModel Jetons interrégionaux par minute pour ${Model}
InvokeModel Demandes interrégionales mondiales par minute pour ${Model}
InvokeModel Tokens interrégionaux mondiaux par minute pour ${Model}

Les demandes adressées à une région peuvent être traitées à partir de zones locales partageant la même région mère. Par exemple, les demandes adressées à l'est des États-Unis (Virginie du Nord) (us-east-1) peuvent être traitées depuis n'importe quelle zone locale associée, telle qu'Atlanta, États-Unis (us-east-1-atl-2a).

Le même principe s'applique lors de l'utilisation de l'inférence interrégionale. Par exemple, les demandes adressées au profil d'AnthropicClaude 3 Haikuinférence américain peuvent être traitées depuis n'importe quelle zone locale dont la région mère est située aux États-Unis, telle que Seattle, États-Unis (us-west-2-sea-1a). Lorsque de nouvelles zones locales sont ajoutées AWS, elles sont également ajoutées au point de terminaison d'inférence interrégional correspondant.

Pour consulter la liste des points de terminaison locaux et des régions mères auxquelles ils sont associés, consultez la section Emplacements AWS des zones locales.

Lorsque vous invoquez un profil d'inférence interrégional dans Amazon Bedrock, votre demande provient d'une région source et est automatiquement acheminée vers l'une des régions de destination définies dans ce profil, optimisant ainsi les performances. Le profil d'inférence interrégional des régions de destination pour le monde inclut toutes les régions commerciales.

Le profil d'inférence interrégional global pour un modèle spécifique peut changer au fil du temps en raison de l' AWS ajout de nouvelles régions commerciales dans lesquelles vos demandes peuvent être traitées. Toutefois, si un profil d'inférence est lié à une zone géographique (comme les États-Unis, l'UE ou la région APAC), la liste des régions de destination ne changera jamais. AWS peut créer de nouveaux profils d'inférence incorporant de nouvelles régions. Vous pouvez mettre à jour vos systèmes pour utiliser ces profils d'inférence IDs en remplaçant les nouveaux dans votre configuration.

Note

Les régions de destination d'un profil d'inférence interrégional peuvent inclure des régions facultatives, qui sont des régions que vous devez explicitement activer au niveau de l'organisation Compte AWS ou au niveau de l'organisation. Pour en savoir plus, consultez la section Activer ou désactiver Régions AWS dans votre compte. Lorsque vous utilisez un profil d'inférence interrégional, votre demande d'inférence peut être acheminée vers l'une des régions de destination figurant dans le profil, même si vous n'avez pas activé ces régions dans votre compte.

Les politiques de contrôle des services (SCPs) et AWS Identity and Access Management (IAM) fonctionnent ensemble pour contrôler les endroits où l'inférence entre régions est autorisée. En utilisant SCPs, vous pouvez contrôler les régions qu'Amazon Bedrock peut utiliser pour l'inférence, et en utilisant les politiques IAM, vous pouvez définir les utilisateurs ou les rôles autorisés à exécuter l'inférence. Si l'une des régions de destination d'un profil d'inférence interrégional est bloquée dans votre profil SCPs, la demande échouera même si les autres régions restent autorisées. Pour garantir un fonctionnement efficace de l'inférence entre régions, vous pouvez mettre à jour vos politiques SCPs et celles d'IAM afin d'autoriser toutes les actions d'inférence Amazon Bedrock requises (par exemple, bedrock:InvokeModel* oubedrock:CreateModelInvocationJob) dans toutes les régions de destination incluses dans le profil d'inférence que vous avez choisi. Pour en savoir plus, consultez https://aws.amazon.com/blogs/machine-learning/enable-amazon-bedrock-cross-region-inference-in-multi-account-environments/ Activer l'inférence interrégionale d'Amazon Bedrock dans les environnements multi-comptes.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Inférence : générer des réponses

Influencez la génération de réponses avec des paramètres d'inférence