Use um perfil de inferência entre regiões (definido pelo sistema)

Aumente a produtividade com inferência entre regiões

Com a inferência entre regiões, você pode escolher um perfil de inferência entre regiões vinculado a uma geografia específica (como EUA ou UE) ou escolher um perfil de inferência global. Quando você escolhe um perfil de inferência vinculado a uma geografia específica, o Amazon Bedrock seleciona automaticamente o comercial ideal Região da AWS dentro dessa geografia para processar sua solicitação de inferência. Com perfis de inferência globais, o Amazon Bedrock seleciona automaticamente o comercial ideal Região da AWS para processar a solicitação, o que otimiza os recursos disponíveis e aumenta a produtividade do modelo.

Ao executar a inferência de modelos no modo sob demanda, as solicitações podem ser restringidas por cotas de serviço ou em horários de pico de uso. A inferência entre regiões permite que você gerencie perfeitamente picos de tráfego não planejados, utilizando computação em diferentes regiões. Regiões da AWS Com a inferência entre regiões, você pode distribuir o tráfego entre várias Regiões da AWS, permitindo maior taxa de transferência.

Você também pode aumentar o throughput de um modelo comprando throughput provisionado. Atualmente, os perfis de inferência não comportam throughput provisionado.

Para ver as regiões e os modelos com os quais você pode usar perfis de inferência para executar a inferência entre regiões, consulte. Regiões e modelos compatíveis para perfis de inferência

Os perfis de inferência entre regiões (definidos pelo sistema) são nomeados de acordo com o modelo que eles suportam e definidos pelas regiões que eles suportam. Para entender como um perfil de inferência entre regiões lida com suas solicitações, analise as seguintes definições:

Região de origem — A região a partir da qual você faz a solicitação de API que especifica o perfil de inferência.
Região de destino — Uma região para a qual o serviço Amazon Bedrock pode encaminhar a solicitação da sua região de origem.

Quando você invoca um perfil de inferência entre regiões no Amazon Bedrock, sua solicitação se origina de uma região de origem e é automaticamente encaminhada para uma das regiões de destino definidas nesse perfil, otimizando o desempenho. As regiões de destino para perfis globais de inferência entre regiões incluem todas as regiões comerciais.

nota

As regiões de destino em um perfil de inferência entre regiões podem incluir regiões opcionais, que são regiões que você deve habilitar explicitamente no Conta da AWS nível da organização. Para saber mais, consulte Ativar ou desativar Regiões da AWS em sua conta. Ao usar um perfil de inferência entre regiões, sua solicitação de inferência pode ser encaminhada para qualquer uma das regiões de destino no perfil, mesmo que você não tenha optado por essas regiões em sua conta.

As políticas de controle de serviços (SCPs) e AWS Identity and Access Management (IAM) trabalham juntas para controlar onde a inferência entre regiões é permitida. Usando SCPs, você pode controlar quais regiões o Amazon Bedrock pode usar para inferência e, usando políticas do IAM, você pode definir quais usuários ou funções têm permissão para executar inferência. Se alguma região de destino em um perfil de inferência entre regiões estiver bloqueada no seu SCPs, a solicitação falhará mesmo que outras regiões continuem permitidas. Para garantir uma operação eficiente com inferência entre regiões, você pode atualizar suas políticas SCPs e as do IAM para permitir todas as ações de inferência necessárias do Amazon Bedrock (por exemplo, bedrock:InvokeModel* oubedrock:CreateModelInvocationJob) em todas as regiões de destino incluídas no perfil de inferência escolhido. Para saber mais, consulte Habilitando a inferência entre regiões do Amazon Bedrock em ambientes com várias contas.

nota

Alguns perfis de inferência são roteados para diferentes regiões de destino, dependendo da região de origem da qual você os chama. Por exemplo, se você ligar us.anthropic.claude-3-haiku-20240307-v1:0 do Leste dos EUA (Ohio), ele poderá encaminhar solicitações para us-east-1us-east-2,us-west-2, ou, mas se você ligar do Oeste dos EUA (Oregon), ele poderá encaminhar solicitações somente para us-east-1 e. us-west-2

Para verificar as regiões de origem e destino de um perfil de inferência, você pode fazer o seguinte:

Expanda a seção correspondente na lista de perfis de inferência entre regiões compatíveis.
Envie uma GetInferenceProfilesolicitação com um endpoint do plano de controle Amazon Bedrock de uma região de origem e especifique o Amazon Resource Name (ARN) ou o ID do perfil de inferência no campo. inferenceProfileIdentifier O models campo na resposta é mapeado para uma lista de modelos ARNs, na qual você pode identificar cada região de destino.

nota

O perfil global de inferência entre regiões para um modelo específico pode mudar com o tempo, à medida que AWS adiciona mais regiões comerciais nas quais suas solicitações podem ser processadas. No entanto, se um perfil de inferência estiver vinculado a uma região geográfica (como EUA, UE ou APAC), sua lista de regiões de destino nunca será alterada. AWS pode criar novos perfis de inferência que incorporem novas regiões. Você pode atualizar seus sistemas para usar esses perfis de inferência alterando a IDs configuração para os novos.

Atualmente, o perfil de inferência global entre regiões só é suportado no Anthropic Claude Sonnet 4 modelo para as seguintes regiões de origem: Oeste dos EUA (Oregon), Leste dos EUA (Norte da Virgínia), Leste dos EUA (Ohio), Europa (Irlanda) e Ásia-Pacífico (Tóquio). As regiões de destino para o perfil de inferência global incluem todas as regiões comerciais Regiões da AWS.

Observe as seguintes informações sobre a inferência entre regiões:

Não há custo adicional de roteamento para usar a inferência entre regiões. O preço é calculado com base na região a partir da qual você chama um perfil de inferência. Para obter mais informações sobre preços, consulte Preços do Amazon Bedrock.
Os perfis globais de inferência entre regiões fornecem maior produtividade do que um perfil de inferência vinculado a uma determinada geografia. Um perfil de inferência vinculado a uma determinada geografia oferece maior rendimento do que a inferência de uma única região.
Para ver as cotas padrão de taxa de transferência entre regiões ao usar perfis de inferência vinculados a uma região geográfica (como EUA, UE e APAC), consulte as solicitações de inferência do modelo entre regiões por minuto para $ {Model} e os tokens de inferência do modelo entre regiões por minuto para valores $ {Model} nas cotas do serviço Amazon Bedrock na Referência geral.AWS
Para ver as cotas padrão de taxa de transferência entre regiões ao usar perfis de inferência globais, consulte as solicitações de inferência do modelo global entre regiões por minuto para $ {Model} e os tokens de inferência do modelo global entre regiões por minuto para $ {Model} valores nas cotas do serviço Amazon Bedrock na Referência geral.AWS

Você pode solicitar, visualizar e gerenciar cotas para o Perfil Global de Inferência entre Regiões a partir do console Service Quotas ou usando comandos da AWS CLI na região Leste dos EUA (Norte da Virgínia). Observe que as cotas globais de inferência entre regiões não aparecerão no console do Service Quotas ou na AWS CLI de outras regiões de origem listadas no Global Inference Profile.
As solicitações de inferência entre regiões para um perfil de inferência vinculado a uma região geográfica (por exemplo, EUA, UE e APAC) são mantidas dentro do Regiões da AWS que faz parte da geografia em que os dados residem originalmente. Por exemplo, uma solicitação feita nos EUA é mantida Regiões da AWS nos EUA. Embora os dados permaneçam armazenados somente na região de origem, suas solicitações de entrada e resultados de saída podem sair da região de origem durante a inferência entre regiões. Todos os dados serão transmitidos criptografados pela rede segura da Amazon.
AWS Os serviços desenvolvidos pelo Amazon Bedrock também podem usar o CRIS. Consulte a documentação específica do serviço para obter mais detalhes.

Use um perfil de inferência entre regiões (definido pelo sistema)

Para usar a inferência entre regiões, você inclui um perfil de inferência ao executar a inferência do modelo das seguintes maneiras:

Inferência de modelo sob demanda — especifique o ID do perfil de inferência como o modelId ao enviar uma solicitação InvokeModel InvokeModelWithResponseStream, Converse ou. ConverseStream Um perfil de inferência define uma ou mais regiões para as quais ele pode encaminhar solicitações de inferência provenientes da sua região de origem. O uso da inferência entre regiões aumenta a taxa de transferência e o desempenho ao rotear dinamicamente as solicitações de invocação do modelo nas regiões definidas no perfil de inferência. Fatores de roteamento no tráfego, na demanda e na utilização de recursos do usuário. Para obter mais informações, consulte Envie prompts e gere respostas com a inferência de modelo.
Inferência em lote — envie solicitações de forma assíncrona com a inferência em lote especificando o ID do perfil de inferência como o ao enviar uma solicitação. modelId CreateModelInvocationJob O uso de um perfil de inferência permite que você utilize a computação em vários Regiões da AWS e obtenha tempos de processamento mais rápidos para seus trabalhos em lotes. Depois que o trabalho for concluído, você poderá recuperar os arquivos de saída do bucket do Amazon S3 na região de origem.
Agentes — especifique a ID do perfil de inferência no foundationModel campo em uma CreateAgentsolicitação. Para obter mais informações, consulte Criar e configurar o agente manualmente.
Geração de respostas da base de conhecimento — Você pode usar a inferência entre regiões ao gerar uma resposta após consultar uma base de conhecimento. Para obter mais informações, consulte Testar a base de conhecimento com consultas e respostas.
Avaliação do modelo — Você pode enviar um perfil de inferência como modelo para avaliação ao enviar um trabalho de avaliação do modelo. Para obter mais informações, consulte Avalie o desempenho dos recursos do Amazon Bedrock.
Gerenciamento de solicitações — você pode usar a inferência entre regiões ao gerar uma resposta para uma solicitação criada no Gerenciamento de solicitações. Para obter mais informações, consulte Construir e armazenar prompts reutilizáveis com o Gerenciamento de Prompts do Amazon Bedrock.
Fluxos de prompt — você pode usar a inferência entre regiões ao gerar uma resposta para um prompt definido em linha em um nó de prompt em um fluxo de prompt. Para obter mais informações, consulte Crie um fluxo de trabalho end-to-end generativo de IA com o Amazon Bedrock Flows.

nota

O perfil de inferência global é compatível com inferência de modelos sob demanda, inferência em lote, agentes, avaliação de modelos, gerenciamento de solicitações e fluxos imediatos.

Para saber como usar um perfil de inferência para enviar solicitações de invocação de modelo entre regiões, consulte. Use um perfil de inferência na invocação de modelos

Para saber mais sobre a inferência entre regiões, consulte Introdução à inferência entre regiões no Amazon Bedrock.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Processamento de casos de uso

Taxa de transferência provisionada: aumente a taxa de transferência do modelo