Augmentez le débit grâce à l'inférence entre régions - Amazon Bedrock

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Augmentez le débit grâce à l'inférence entre régions

Lorsque vous exécutez l'inférence de modèles en mode à la demande, vos demandes peuvent être limitées par des quotas de service ou pendant les périodes de pointe d'utilisation. L'inférence entre régions vous permet de gérer de manière fluide les pics de trafic imprévus en utilisant le calcul entre différentes régions. Régions AWS Grâce à l'inférence entre régions, vous pouvez répartir le trafic sur plusieurs régions Régions AWS, ce qui permet d'augmenter le débit.

Pour utiliser l'inférence entre régions, vous devez inclure un profil d'inférence lorsque vous exécutez l'inférence de modèle de la manière suivante :

  • Inférence de modèle à la demande : spécifiez l'identifiant du profil d'inférence modelId lors de l'envoi d'une demande InvokeModelInvokeModelWithResponseStream, d'un Converse ou d'une demande. ConverseStream Un profil d'inférence définit une ou plusieurs régions vers lesquelles il peut acheminer les demandes d'inférence provenant de votre région source. L'utilisation de l'inférence entre régions augmente le débit et les performances en acheminant dynamiquement les demandes d'invocation du modèle entre les régions définies dans le profil d'inférence. Facteurs de routage influant sur le trafic utilisateur, la demande et l'utilisation des ressources. Pour plus d’informations, consultez Soumettez des invites et générez des réponses grâce à l'inférence du modèle.

  • Inférence par lots — Soumettez les demandes de manière asynchrone avec l'inférence par lots en spécifiant l'ID du profil d'inférence lors de l'envoi d'une demande. modelId CreateModelInvocationJob L'utilisation d'un profil d'inférence vous permet d'utiliser le calcul sur plusieurs Régions AWS et d'accélérer les temps de traitement de vos tâches par lots. Une fois le travail terminé, vous pouvez récupérer les fichiers de sortie depuis le compartiment Amazon S3 dans la région source.

  • Génération de réponses dans la base de connaissances : vous pouvez utiliser l'inférence entre régions lorsque vous générez une réponse après avoir consulté une base de connaissances ou lorsque vous analysez des informations non textuelles dans une source de données. Pour plus d’informations, consultez Testez votre base de connaissances à l'aide de requêtes et de réponses et Options d'analyse pour votre source de données.

  • Évaluation du modèle — Vous pouvez soumettre un profil d'inférence en tant que modèle à évaluer lors de la soumission d'une tâche d'évaluation de modèle. Pour de plus amples informations, veuillez consulter Évaluez les performances des ressources Amazon Bedrock.

  • Gestion des promptes : vous pouvez utiliser l'inférence entre régions lorsque vous générez une réponse à une invite que vous avez créée dans Gestion des promptes. Pour plus d’informations, consultez Créez et stockez des instructions réutilisables avec Prompt Management dans Amazon Bedrock.

  • Flux rapides : vous pouvez utiliser l'inférence entre régions lorsque vous générez une réponse à une invite que vous définissez en ligne dans un nœud d'invite d'un flux d'invite. Pour de plus amples informations, veuillez consulter Créez un flux de travail d'IA end-to-end génératif avec Amazon Bedrock Flows.

Pour voir les régions et les modèles avec lesquels vous pouvez utiliser des profils d'inférence pour exécuter une inférence entre régions, reportez-vous à. Régions et modèles pris en charge pour les profils d'inférence

Vous pouvez également augmenter le débit d'un modèle en achetant le débit provisionné. Les profils d'inférence ne prennent actuellement pas en charge le débit provisionné.

Pour savoir comment utiliser un profil d'inférence pour envoyer des demandes d'invocation de modèles entre les régions, consultez. Utiliser un profil d'inférence lors de l'invocation du modèle

Notez les informations suivantes concernant l'inférence entre régions :

  • L'utilisation de l'inférence entre régions n'entraîne aucun coût de routage supplémentaire. Le prix est calculé en fonction de la région à partir de laquelle vous appelez un profil d'inférence. Pour plus d'informations sur les tarifs, consultez les tarifs d'Amazon Bedrock.

  • Lorsque vous utilisez l'inférence entre régions, votre débit peut atteindre le double des quotas par défaut dans la région dans laquelle se trouve le profil d'inférence. L'augmentation du débit ne s'applique qu'aux appels effectués via des profils d'inférence, le quota normal s'applique toujours si vous optez pour un modèle de demande d'invocation régional. Par exemple, si vous invoquez les États-Unis Anthropic Claude 3 Sonnet profil d'inférence dans us-east-1, votre débit peut atteindre jusqu'à 1 000 demandes par minute et 2 000 000 de jetons par minute. Pour connaître les quotas par défaut pour le débit à la demande, reportez-vous à la section Quotas d'exécution de la console Service Quotas Quotas pour Amazon Bedrock ou utilisez la console Service Quotas.

  • Les demandes d'inférence entre régions sont conservées dans les régions qui font partie du profil d'inférence utilisé. Par exemple, une demande effectuée à l'aide d'un profil d'inférence de l'UE est conservée dans les régions de l'UE.

Pour en savoir plus sur l'inférence entre régions, consultez Commencer à utiliser l'inférence entre régions dans Amazon Bedrock.