Melhore a resiliência com inferência entre regiões - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Melhore a resiliência com inferência entre regiões

Ao executar a inferência de modelos no modo sob demanda, suas solicitações podem ser restringidas por cotas de serviço ou durante horários de pico de uso. A inferência entre regiões permite que você gerencie perfeitamente picos de tráfego não planejados, utilizando computação em diferentes regiões. Regiões da AWS Com a inferência entre regiões, você pode distribuir o tráfego entre várias Regiões da AWS, permitindo maior taxa de transferência e maior resiliência durante períodos de pico de demanda.

Para usar a inferência entre regiões, você inclui um perfil de inferência ao executar a inferência do modelo especificando o ID do perfil de inferência como o modelId ao enviar uma solicitação InvokeModel,, InvokeModelWithResponseStreamConverse ou. ConverseStream Um perfil de inferência é uma abstração de um pool sob demanda de recursos configurado. Regiões da AWS Um perfil de inferência pode rotear sua solicitação de inferência originada da sua região de origem para outra região configurada no pool. O uso da inferência entre regiões aumenta a produtividade e melhora a resiliência ao rotear dinamicamente as solicitações de invocação do modelo nas regiões definidas no perfil de inferência. Fatores de roteamento no tráfego de usuários, demanda e utilização de recursos. A solicitação é atendida na região de origem.

Atualmente, a inferência entre regiões está disponível para os seguintes recursos:

Você também pode aumentar a taxa de transferência de um modelo comprando a taxa de transferência provisionada. Atualmente, os perfis de inferência não oferecem suporte à taxa de transferência provisionada.

Observe as seguintes informações sobre inferência entre regiões:

  • Não há custo adicional de roteamento para usar a inferência entre regiões. O preço é calculado com base na região da qual você chama um perfil de inferência. Para obter informações sobre preços, consulte os preços do Amazon Bedrock.

  • Ao usar a inferência entre regiões, sua taxa de transferência pode atingir até o dobro das cotas alocadas na região em que o perfil de inferência está. O aumento na taxa de transferência só se aplica à invocação realizada por meio de perfis de inferência. A cota regular ainda se aplica se você optar pela solicitação de invocação do modelo na região. Por exemplo, se você invocar os EUA Anthropic Claude 3 Sonnet perfil de inferência no Leste dos EUA (Norte da Virgínia) (us-east-1), sua taxa de transferência pode atingir até 1.000 solicitações por minuto e 2.000.000 de tokens por minuto. Para ver as cotas padrão para taxa de transferência sob demanda, consulte a seção Cotas de tempo de execução Cotas do Amazon Bedrock ou use o console Service Quotas.

  • As solicitações de inferência entre regiões são mantidas nas regiões que fazem parte do perfil de inferência usado. Por exemplo, uma solicitação feita com um perfil de inferência da UE é mantida nas regiões da UE.

Para saber mais sobre a inferência entre regiões, consulte Introdução à inferência entre regiões no Amazon Bedrock.