As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Melhore a resiliência com inferência entre regiões
Ao executar a inferência de modelos no modo sob demanda, suas solicitações podem ser restringidas por cotas de serviço ou durante horários de pico de uso. A inferência entre regiões permite que você gerencie perfeitamente picos de tráfego não planejados, utilizando computação em diferentes regiões. Regiões da AWS Com a inferência entre regiões, você pode distribuir o tráfego entre várias Regiões da AWS, permitindo maior taxa de transferência e maior resiliência durante períodos de pico de demanda.
Para usar a inferência entre regiões, você inclui um perfil de inferência ao executar a inferência do modelo especificando o ID do perfil de inferência como o modelId
ao enviar uma solicitação InvokeModel,, InvokeModelWithResponseStreamConverse ou. ConverseStream Um perfil de inferência é uma abstração de um pool sob demanda de recursos configurado. Regiões da AWS Um perfil de inferência pode rotear sua solicitação de inferência originada da sua região de origem para outra região configurada no pool. O uso da inferência entre regiões aumenta a produtividade e melhora a resiliência ao rotear dinamicamente as solicitações de invocação do modelo nas regiões definidas no perfil de inferência. Fatores de roteamento no tráfego de usuários, demanda e utilização de recursos. A solicitação é atendida na região de origem.
Atualmente, a inferência entre regiões está disponível para os seguintes recursos:
-
Inferência de modelo — Você pode usar a inferência entre regiões ao executar a invocação do modelo usando o Playgrounds no console Amazon Bedrock ou ao usar o InvokeModel,, Converse e operações. InvokeModelWithResponseStreamConverseStream Para obter mais informações, consulte Envie solicitações e gere respostas com inferência de modelo.
-
Geração de respostas da base de conhecimento — Você pode usar a inferência entre regiões ao gerar uma resposta após consultar uma base de conhecimento ou ao analisar informações não textuais em uma fonte de dados. Para ter mais informações, consulte Consulte uma base de conhecimento e gere respostas de IA e Opções avançadas de análise.
-
Avaliação do modelo — Você pode enviar um perfil de inferência como modelo para avaliação ao enviar um trabalho de avaliação do modelo. Para obter mais informações, consulte Escolha o modelo com melhor desempenho usando as avaliações do Amazon Bedrock.
-
Gerenciamento de solicitações — você pode usar a inferência entre regiões ao gerar uma resposta para uma solicitação criada no Gerenciamento de solicitações. Para ter mais informações, consulte Crie e armazene avisos reutilizáveis com o gerenciamento de alertas no Amazon Bedrock
-
Fluxos de prompt — você pode usar a inferência entre regiões ao gerar uma resposta para um prompt definido em linha em um nó de prompt em um fluxo de prompt. Para obter mais informações, consulte Crie um fluxo de trabalho end-to-end generativo de IA com os fluxos do Amazon Bedrock Prompt.
Você também pode aumentar a taxa de transferência de um modelo comprando a taxa de transferência provisionada. Atualmente, os perfis de inferência não oferecem suporte à taxa de transferência provisionada.
Observe as seguintes informações sobre inferência entre regiões:
-
Não há custo adicional de roteamento para usar a inferência entre regiões. O preço é calculado com base na região da qual você chama um perfil de inferência. Para obter informações sobre preços, consulte os preços do Amazon Bedrock
. -
Ao usar a inferência entre regiões, sua taxa de transferência pode atingir até o dobro das cotas alocadas na região em que o perfil de inferência está. O aumento na taxa de transferência só se aplica à invocação realizada por meio de perfis de inferência. A cota regular ainda se aplica se você optar pela solicitação de invocação do modelo na região. Por exemplo, se você invocar os EUA Anthropic Claude 3 Sonnet perfil de inferência no Leste dos EUA (Norte da Virgínia) (us-east-1), sua taxa de transferência pode atingir até 1.000 solicitações por minuto e 2.000.000 de tokens por minuto. Para ver as cotas padrão para taxa de transferência sob demanda, consulte a seção Cotas de tempo de execução Cotas do Amazon Bedrock ou use o console Service Quotas.
-
As solicitações de inferência entre regiões são mantidas nas regiões que fazem parte do perfil de inferência usado. Por exemplo, uma solicitação feita com um perfil de inferência da UE é mantida nas regiões da UE.
Para saber mais sobre a inferência entre regiões, consulte Introdução à inferência entre regiões no Amazon Bedrock