As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Endpoints e cotas de Amazon Bedrock
Para se conectar programaticamente a um AWS serviço, você usa um endpoint. AWS os serviços oferecem os seguintes tipos de endpoints em algumas ou em todas as AWS regiões às quais o serviço oferece suporte: IPv4 endpoints, endpoints de pilha dupla e endpoints FIPS. Alguns serviços fornecem endpoints globais. Para obter mais informações, consulte AWS endpoints de serviço.
As cotas de serviço, também chamadas de limites, são o número máximo de recursos ou operações de serviço da sua AWS conta. Para obter mais informações, consulte AWS cotas de serviço.
A seguir estão os endpoints de serviço e as cotas de serviço para este serviço.
Endpoints do serviço Amazon Bedrock
Avião de controle Amazon Bedrock APIs
A tabela a seguir fornece uma lista de endpoints específicos da região que o Amazon Bedrock suporta para gerenciar, treinar e implantar modelos. Use esses endpoints para operações de API do Amazon Bedrock.
Nome da região | Região | Endpoint | Protocolo |
---|---|---|---|
Leste dos EUA (Ohio) | us-east-2 |
bedrock.us-east-2.amazonaws.com bedrock-fips.us-east-2.amazonaws.com |
HTTPS HTTPS |
Leste dos EUA (Norte da Virgínia) | us-east-1 |
bedrock.us-east-1.amazonaws.com bedrock-fips.us-east-1.amazonaws.com |
HTTPS HTTPS |
Oeste dos EUA (N. da Califórnia) | us-west-1 |
bedrock.us-west-1.amazonaws.com bedrock-fips.us-west-1.amazonaws.com |
HTTPS HTTPS |
Oeste dos EUA (Oregon) | us-west-2 |
bedrock.us-west-2.amazonaws.com bedrock-fips.us-west-2.amazonaws.com |
HTTPS HTTPS |
Ásia-Pacífico (Hyderabad) | ap-south-2 | bedrock.ap-south-2.amazonaws.com | HTTPS |
Ásia-Pacífico (Melbourne) | ap-southeast-4 | bedrock.ap-southeast-4.amazonaws.com | HTTPS |
Ásia-Pacífico (Mumbai) | ap-south-1 | bedrock.ap-south-1.amazonaws.com | HTTPS |
Ásia-Pacífico (Osaka) | ap-northeast-3 | bedrock.ap-northeast-3.amazonaws.com | HTTPS |
Ásia-Pacífico (Seul) | ap-northeast-2 | bedrock.ap-northeast-2.amazonaws.com | HTTPS |
Ásia-Pacífico (Singapura) | ap-southeast-1 | bedrock.ap-southeast-1.amazonaws.com | HTTPS |
Ásia-Pacífico (Sydney) | ap-southeast-2 | bedrock.ap-southeast-2.amazonaws.com | HTTPS |
Ásia-Pacífico (Tóquio) | ap-northeast-1 | bedrock.ap-northeast-1.amazonaws.com | HTTPS |
Canadá (Central) | ca-central-1 |
bedrock.ca-central-1.amazonaws.com bedrock-fips.ca-central-1.amazonaws.com |
HTTPS HTTPS |
Europa (Frankfurt) | eu-central-1 | bedrock.eu-central-1.amazonaws.com | HTTPS |
Europa (Irlanda) | eu-west-1 | bedrock.eu-west-1.amazonaws.com | HTTPS |
Europa (Londres) | eu-west-2 | bedrock.eu-west-2.amazonaws.com | HTTPS |
Europa (Milão) | eu-south-1 | bedrock.eu-south-1.amazonaws.com | HTTPS |
Europa (Paris) | eu-west-3 | bedrock.eu-west-3.amazonaws.com | HTTPS |
Europa (Espanha) | eu-south-2 | bedrock.eu-south-2.amazonaws.com | HTTPS |
Europa (Estocolmo) | eu-north-1 | bedrock.eu-north-1.amazonaws.com | HTTPS |
Europa (Zurique) | eu-central-2 | bedrock.eu-central-2.amazonaws.com | HTTPS |
América do Sul (São Paulo) | sa-east-1 | bedrock.sa-east-1.amazonaws.com | HTTPS |
AWS GovCloud (Leste dos EUA) | us-gov-east-1 |
bedrock.us-gov-east-1.amazonaws.com bedrock-fips.us-gov-east-1.amazonaws.com |
HTTPS HTTPS |
AWS GovCloud (Oeste dos EUA) | us-gov-west-1 |
bedrock.us-gov-west-1.amazonaws.com bedrock-fips.us-gov-west-1.amazonaws.com |
HTTPS HTTPS |
Tempo de execução do Amazon Bedrock APIs
A tabela a seguir fornece uma lista de endpoints específicos da região que o Amazon Bedrock suporta para fazer solicitações de inferência para modelos hospedados no Amazon Bedrock. Use esses endpoints para operações da API Amazon Bedrock Runtime.
Nome da região | Região | Endpoint | Protocolo |
---|---|---|---|
Leste dos EUA (Ohio) | us-east-2 |
bedrock-runtime.us-east-2.amazonaws.com bedrock-runtime-fips.us-east-2.amazonaws.com |
HTTPS HTTPS |
Leste dos EUA (Norte da Virgínia) | us-east-1 |
bedrock-runtime.us-east-1.amazonaws.com bedrock-runtime-fips.us-east-1.amazonaws.com |
HTTPS HTTPS |
Oeste dos EUA (Oregon) | us-west-2 |
bedrock-runtime.us-west-2.amazonaws.com bedrock-runtime-fips.us-west-2.amazonaws.com |
HTTPS HTTPS |
Ásia-Pacífico (Hyderabad) | ap-south-2 | bedrock-runtime.ap-south-2.amazonaws.com | HTTPS |
Ásia-Pacífico (Mumbai) | ap-south-1 | bedrock-runtime.ap-south-1.amazonaws.com | HTTPS |
Ásia-Pacífico (Osaka) | ap-northeast-3 | bedrock-runtime.ap-northeast-3.amazonaws.com | HTTPS |
Ásia-Pacífico (Seul) | ap-northeast-2 | bedrock-runtime.ap-northeast-2.amazonaws.com | HTTPS |
Ásia-Pacífico (Singapura) | ap-southeast-1 | bedrock-runtime.ap-southeast-1.amazonaws.com | HTTPS |
Ásia-Pacífico (Sydney) | ap-southeast-2 | bedrock-runtime.ap-southeast-2.amazonaws.com | HTTPS |
Ásia-Pacífico (Tóquio) | ap-northeast-1 | bedrock-runtime.ap-northeast-1.amazonaws.com | HTTPS |
Canadá (Central) | ca-central-1 |
bedrock-runtime.ca-central-1.amazonaws.com bedrock-runtime-fips.ca-central-1.amazonaws.com |
HTTPS HTTPS |
Europa (Frankfurt) | eu-central-1 | bedrock-runtime.eu-central-1.amazonaws.com | HTTPS |
Europa (Irlanda) | eu-west-1 | bedrock-runtime.eu-west-1.amazonaws.com | HTTPS |
Europa (Londres) | eu-west-2 | bedrock-runtime.eu-west-2.amazonaws.com | HTTPS |
Europa (Milão) | eu-south-1 | bedrock-runtime.eu-south-1.amazonaws.com | HTTPS |
Europa (Paris) | eu-west-3 | bedrock-runtime.eu-west-3.amazonaws.com | HTTPS |
Europa (Espanha) | eu-south-2 | bedrock-runtime.eu-south-2.amazonaws.com | HTTPS |
Europa (Estocolmo) | eu-north-1 | bedrock-runtime.eu-north-1.amazonaws.com | HTTPS |
Europa (Zurique) | eu-central-2 | bedrock-runtime.eu-central-2.amazonaws.com | HTTPS |
América do Sul (São Paulo) | sa-east-1 | bedrock-runtime.sa-east-1.amazonaws.com | HTTPS |
AWS GovCloud (Leste dos EUA) | us-gov-east-1 |
bedrock-runtime.us-gov-east-1.amazonaws.com bedrock-runtime-fips.us-gov-east-1.amazonaws.com |
HTTPS HTTPS |
AWS GovCloud (Oeste dos EUA) | us-gov-west-1 |
bedrock-runtime.us-gov-west-1.amazonaws.com bedrock-runtime-fips.us-gov-west-1.amazonaws.com |
HTTPS HTTPS |
Agentes do Amazon Bedrock Build-Time APIs
A tabela a seguir fornece uma lista de endpoints específicos da região que o Agents for Amazon Bedrock suporta para criar e gerenciar agentes e bases de conhecimento. Use esses endpoints para agentes para operações de API do Amazon Bedrock.
Nome da região | Região | Endpoint | Protocolo |
---|---|---|---|
Leste dos EUA (Norte da Virgínia) | us-east-1 | bedrock-agent.us-east-1.amazonaws.com | HTTPS |
bedrock-agent-fips.us-east-1.amazonaws.com | HTTPS | ||
Oeste dos EUA (Oregon) | us-west-2 | bedrock-agent.us-west-2.amazonaws.com | HTTPS |
bedrock-agent-fips.us-west-2.amazonaws.com | HTTPS | ||
Ásia-Pacífico (Singapura) | ap-southeast-1 | bedrock-agent.ap-southeast-1.amazonaws.com | HTTPS |
Ásia-Pacífico (Sydney) | ap-southeast-2 | bedrock-agent.ap-southeast-2.amazonaws.com | HTTPS |
Ásia-Pacífico (Tóquio) | ap-northeast-1 | bedrock-agent.ap-northeast-1.amazonaws.com | HTTPS |
Canadá (Central) | ca-central-1 | bedrock-agent.ca-central-1.amazonaws.com | HTTPS |
Europa (Frankfurt) | eu-central-1 | bedrock-agent.eu-central-1.amazonaws.com | HTTPS |
Europa (Irlanda) | eu-west-1 | bedrock-agent.eu-west-1.amazonaws.com | HTTPS |
Europa (Londres) | eu-west-2 | bedrock-agent.eu-west-2.amazonaws.com | HTTPS |
Europa (Paris) | eu-west-3 | bedrock-agent.eu-west-3.amazonaws.com | HTTPS |
Ásia-Pacífico (Mumbai) | ap-south-1 | bedrock-agent.ap-south-1.amazonaws.com | HTTPS |
América do Sul (São Paulo) | sa-east-1 | bedrock-agent.sa-east-1.amazonaws.com | HTTPS |
Agentes para o tempo de execução do Amazon Bedrock APIs
A tabela a seguir fornece uma lista de endpoints específicos da região que o Agents for Amazon Bedrock suporta para invocar agentes e consultar bases de conhecimento. Use esses endpoints para agentes para operações da API Amazon Bedrock Runtime.
Nome da região | Região | Endpoint | Protocolo |
---|---|---|---|
Leste dos EUA (Norte da Virgínia) | us-east-1 | bedrock-agent-runtime.us-east-1.amazonaws.com | HTTPS |
bedrock-agent-runtime-fips.us-east-1.amazonaws.com | HTTPS | ||
Oeste dos EUA (Oregon) | us-west-2 | bedrock-agent-runtime.us-west-2.amazonaws.com | HTTPS |
bedrock-agent-runtime-fips.us-west-2.amazonaws.com | HTTPS | ||
Ásia-Pacífico (Singapura) | ap-southeast-1 | bedrock-agent-runtime.ap-southeast-1.amazonaws.com | HTTPS |
Ásia-Pacífico (Sydney) | ap-southeast-2 | bedrock-agent-runtime.ap-southeast-2.amazonaws.com | HTTPS |
Ásia-Pacífico (Tóquio) | ap-northeast-1 | bedrock-agent-runtime.ap-northeast-1.amazonaws.com | HTTPS |
Canadá (Central) | ca-central-1 | bedrock-agent-runtime.ca-central-1.amazonaws.com | HTTPS |
Europa (Frankfurt) | eu-central-1 | bedrock-agent-runtime.eu-central-1.amazonaws.com | HTTPS |
Europa (Paris) | eu-west-3 | bedrock-agent-runtime.eu-west-3.amazonaws.com | HTTPS |
Europa (Irlanda) | eu-west-1 | bedrock-agent-runtime.eu-west-1.amazonaws.com | HTTPS |
Europa (Londres) | eu-west-2 | bedrock-agent-runtime.eu-west-2.amazonaws.com | HTTPS |
Ásia-Pacífico (Mumbai) | ap-south-1 | bedrock-agent-runtime.ap-south-1.amazonaws.com | HTTPS |
América do Sul (São Paulo) | sa-east-1 | bedrock-agent-runtime.sa-east-1.amazonaws.com | HTTPS |
Automação de dados Amazon Bedrock APIs
A tabela a seguir fornece uma lista de endpoints específicos da região que o Data Automation for Amazon Bedrock suporta. Os endpoints que usam a palavra runtime
invocam esquemas e projetos para extrair informações dos arquivos. Use esses endpoints para operações da API Amazon Bedrock Data Automation Runtime. Os endpoints sem runtime
são usados para criar plantas e projetos para fornecer orientação de extração. Use esses endpoints para operações de compilação da API Amazon Bedrock Data Automation.
Nome da região | Região | Endpoint | Protocolo |
---|---|---|---|
Leste dos EUA (Norte da Virgínia) | us-east-1 |
bedrock-data-automation.us-east-1.amazonaws.com bedrock-data-automation-runtime.us-east-1.api.aws bedrock-data-automation-runtime.us-east-1.amazonaws.com bedrock-data-automation.us-east-1.api.aws bedrock-data-automation-fips.us-east-1.amazonaws.com bedrock-data-automation-runtime-fips.us-east-1.api.aws bedrock-data-automation-runtime-fips.us-east-1.amazonaws.com bedrock-data-automation-fips.us-east-1.api.aws |
HTTPS HTTPS HTTPS HTTPS HTTPS HTTPS HTTPS HTTPS |
Oeste dos EUA (Oregon) | us-west-2 |
bedrock-data-automation.us-west-2.amazonaws.com bedrock-data-automation-runtime.us-west-2.api.aws bedrock-data-automation-runtime.us-west-2.amazonaws.com bedrock-data-automation.us-west-2.api.aws bedrock-data-automation-fips.us-west-2.amazonaws.com bedrock-data-automation-runtime-fips.us-west-2.api.aws bedrock-data-automation-runtime-fips.us-west-2.amazonaws.com bedrock-data-automation-fips.us-west-2.api.aws |
HTTPS HTTPS HTTPS HTTPS HTTPS HTTPS HTTPS HTTPS |
Ásia-Pacífico (Mumbai) | ap-south-1 |
bedrock-data-automation.ap-south-1.amazonaws.com bedrock-data-automation-runtime.ap-south-1.amazonaws.com |
HTTPS HTTPS |
Ásia-Pacífico (Sydney) | ap-southeast-2 |
bedrock-data-automation.ap-southeast-2.amazonaws.com bedrock-data-automation-runtime.ap-southeast-2.amazonaws.com |
HTTPS HTTPS |
Europa (Frankfurt) | eu-central-1 |
bedrock-data-automation.eu-central-1.amazonaws.com bedrock-data-automation-runtime.eu-central-1.amazonaws.com |
HTTPS HTTPS |
Europa (Irlanda) | eu-west-1 |
bedrock-data-automation.eu-west-1.amazonaws.com bedrock-data-automation-runtime.eu-west-1.amazonaws.com |
HTTPS HTTPS |
Europa (Londres) | eu-west-2 |
bedrock-data-automation.eu-west-2.amazonaws.com bedrock-data-automation-runtime.eu-west-2.amazonaws.com |
HTTPS HTTPS |
Cotas do serviço Amazon Bedrock
dica
Como o Amazon Bedrock tem um grande número de cotas, recomendamos que você visualize as cotas de serviço usando o console em vez de usar a tabela abaixo. Abra as cotas do Amazon Bedrock
Name | Padrão | Ajustável | Descrição |
---|---|---|---|
(Raciocínio automatizado) Anotações na política | Cada região com suporte: 10 | Não | O número máximo de anotações em uma política de raciocínio automatizado. |
(Raciocínio automatizado) CancelAutomatedReasoningPolicyBuildWorkflow solicitações por segundo | Cada região compatível: 5 | Sim |
O número máximo de solicitações de CancelAutomatedReasoningPolicyBuildWorkflow API por segundo. |
(Raciocínio automatizado) Construções simultâneas por política | Cada região compatível: 2 | Não | O número máximo de compilações simultâneas por política de raciocínio automatizado. |
(Raciocínio automatizado) Construções simultâneas de políticas por conta | Cada região compatível: 5 | Não | O número máximo de políticas simultâneas de raciocínio automatizado é criado em uma conta. |
(Raciocínio automatizado) CreateAutomatedReasoningPolicy solicitações por segundo | Cada região compatível: 5 | Sim |
O número máximo de solicitações de CreateAutomatedReasoningPolicy API por segundo. |
(Raciocínio automatizado) CreateAutomatedReasoningPolicyTestCase solicitações por segundo | Cada região compatível: 5 | Sim |
O número máximo de solicitações de CreateAutomatedReasoningPolicyTestCase API por segundo. |
(Raciocínio automatizado) CreateAutomatedReasoningPolicyVersion solicitações por segundo | Cada região compatível: 5 | Sim |
O número máximo de solicitações de CreateAutomatedReasoningPolicyVersion API por segundo. |
(Raciocínio automatizado) DeleteAutomatedReasoningPolicy solicitações por segundo | Cada região compatível: 5 | Sim |
O número máximo de solicitações de DeleteAutomatedReasoningPolicy API por segundo. |
(Raciocínio automatizado) DeleteAutomatedReasoningPolicyBuildWorkflow solicitações por segundo | Cada região compatível: 5 | Sim |
O número máximo de solicitações de DeleteAutomatedReasoningPolicyBuildWorkflow API por segundo. |
(Raciocínio automatizado) DeleteAutomatedReasoningPolicyTestCase solicitações por segundo | Cada região compatível: 5 | Sim |
O número máximo de solicitações de DeleteAutomatedReasoningPolicyTestCase API por segundo. |
(Raciocínio automatizado) ExportAutomatedReasoningPolicyVersion solicitações por segundo | Cada região compatível: 5 | Sim |
O número máximo de solicitações de ExportAutomatedReasoningPolicyVersion API por segundo. |
(Raciocínio automatizado) GetAutomatedReasoningPolicy solicitações por segundo | Cada região com suporte: 10 | Sim |
O número máximo de solicitações de GetAutomatedReasoningPolicy API por segundo. |
(Raciocínio automatizado) GetAutomatedReasoningPolicyAnnotations solicitações por segundo | Cada região com suporte: 10 | Sim |
O número máximo de solicitações de GetAutomatedReasoningPolicyAnnotations API por segundo. |
(Raciocínio automatizado) GetAutomatedReasoningPolicyBuildWorkflow solicitações por segundo | Cada região com suporte: 10 | Sim |
O número máximo de solicitações de GetAutomatedReasoningPolicyBuildWorkflow API por segundo. |
(Raciocínio automatizado) GetAutomatedReasoningPolicyBuildWorkflowResultAssets solicitações por segundo | Cada região com suporte: 10 | Sim |
O número máximo de solicitações de GetAutomatedReasoningPolicyBuildWorkflowResultAssets API por segundo. |
(Raciocínio automatizado) GetAutomatedReasoningPolicyNextScenario solicitações por segundo | Cada região com suporte: 10 | Sim |
O número máximo de solicitações de GetAutomatedReasoningPolicyNextScenario API por segundo. |
(Raciocínio automatizado) GetAutomatedReasoningPolicyTestCase solicitações por segundo | Cada região com suporte: 10 | Sim |
O número máximo de solicitações de GetAutomatedReasoningPolicyTestCase API por segundo. |
(Raciocínio automatizado) GetAutomatedReasoningPolicyTestResult solicitações por segundo | Cada região com suporte: 10 | Sim |
O número máximo de solicitações de GetAutomatedReasoningPolicyTestResult API por segundo. |
(Raciocínio automatizado) ListAutomatedReasoningPolicies solicitações por segundo | Cada região compatível: 5 | Sim |
O número máximo de solicitações de ListAutomatedReasoningPolicies API por segundo. |
(Raciocínio automatizado) ListAutomatedReasoningPolicyBuildWorkflows solicitações por segundo | Cada região compatível: 5 | Sim |
O número máximo de solicitações de ListAutomatedReasoningPolicyBuildWorkflows API por segundo. |
(Raciocínio automatizado) ListAutomatedReasoningPolicyTestCases solicitações por segundo | Cada região compatível: 5 | Sim |
O número máximo de solicitações de ListAutomatedReasoningPolicyTestCases API por segundo. |
(Raciocínio automatizado) ListAutomatedReasoningPolicyTestResults solicitações por segundo | Cada região compatível: 5 | Sim |
O número máximo de solicitações de ListAutomatedReasoningPolicyTestResults API por segundo. |
(Raciocínio automatizado) Políticas por conta | Cada região compatível: 100 | Não | O número máximo de políticas de raciocínio automatizado em uma conta. |
(Raciocínio automatizado) Regras na política | Cada região com suporte: 500 | Não | O número máximo de regras em uma política de raciocínio automatizado. |
(Raciocínio automatizado) Caracteres do documento de origem | Cada região suportada: 122.880 | Não | O número máximo de caracteres em um documento de origem para criar uma política de raciocínio automatizado. |
(Raciocínio automatizado) Tamanho do documento de origem (MB) | Cada região compatível: 5 | Não | O tamanho máximo do documento fonte (MB) para criar uma política de raciocínio automatizado. |
(Raciocínio automatizado) StartAutomatedReasoningPolicyBuildWorkflow solicitações por segundo | Cada região compatível: 1 | Sim |
O número máximo de solicitações de StartAutomatedReasoningPolicyBuildWorkflow API por segundo. |
(Raciocínio automatizado) StartAutomatedReasoningPolicyTestWorkflow solicitações por segundo | Cada região compatível: 1 | Sim |
O número máximo de solicitações de StartAutomatedReasoningPolicyTestWorkflow API por segundo. |
Testes (de raciocínio automatizado) por política | Cada região compatível: 100 | Não | O número máximo de testes por política de raciocínio automatizado. |
(Raciocínio automatizado) Tipos por política | Cada região compatível: 50 | Não | O número máximo de tipos em uma política de raciocínio automatizado. |
(Raciocínio automatizado) UpdateAutomatedReasoningPolicy solicitações por segundo | Cada região compatível: 5 | Sim |
O número máximo de solicitações de UpdateAutomatedReasoningPolicy API por segundo. |
(Raciocínio automatizado) UpdateAutomatedReasoningPolicyAnnotations solicitações por segundo | Cada região compatível: 5 | Sim |
O número máximo de solicitações de UpdateAutomatedReasoningPolicyAnnotations API por segundo. |
(Raciocínio automatizado) UpdateAutomatedReasoningPolicyTestCase solicitações por segundo | Cada região compatível: 5 | Sim |
O número máximo de solicitações de UpdateAutomatedReasoningPolicyTestCase API por segundo. |
(Raciocínio automatizado) Valores por tipo na política | Cada região compatível: 50 | Não | O número máximo de valores por tipo em uma política de raciocínio automatizado. |
(Raciocínio automatizado) Variáveis na política | Cada região compatível: 200 | Não | O número máximo de variáveis em uma política de raciocínio automatizado. |
(Raciocínio automatizado) Versões por política | Cada região com suporte: 1.000 | Não | O número máximo de versões por política de raciocínio automatizado. |
(Automação de dados) (Console) Tamanho máximo do arquivo do documento (MB) | Cada região compatível: 200 | Não | O tamanho máximo do arquivo para o console |
(Automação de dados) (Console) Número máximo de páginas por arquivo de documento | Cada região compatível: 20 | Não | O número máximo de páginas por documento no console |
(Automação de dados) CreateBlueprint - Número máximo de plantas por conta | Cada região compatível: 350 | Sim |
O número máximo de plantas por conta |
(Automação de dados) CreateBlueprintVersion - Número máximo de versões do Blueprint por Blueprint | Cada região com suporte: 10 | Sim |
O número máximo de versões por blueprint |
(Automação de dados) Comprimento da descrição dos campos (caracteres) | Cada região com suporte: 300 | Não | O tamanho máximo da descrição para campos em caracteres |
(Automação de dados) InvokeDataAutomationAsync - Áudio - Número máximo de trabalhos simultâneos |
us-east-1: 20 us-west-2: 20 Cada uma das outras regiões compatíveis: 2 |
Sim |
O número máximo de trabalhos abertos do Invoke Data Automation Async para áudios |
(Automação de dados) InvokeDataAutomationAsync - Documento - Número máximo de trabalhos simultâneos |
us-east-1:25 us-west-2:25 Cada uma das outras regiões compatíveis: 5 |
Sim |
O número máximo de trabalhos abertos do Invoke Data Automation Async para documentos |
(Automação de dados) InvokeDataAutomationAsync - Imagem - Número máximo de trabalhos simultâneos |
us-east-1: 20 us-west-2: 20 Cada uma das outras regiões compatíveis: 5 |
Sim |
O número máximo de trabalhos abertos do Invoke Data Automation Async para imagens |
(Automação de dados) InvokeDataAutomationAsync - Número máximo de vagas abertas | Cada região compatível: 1.800 | Não | O número máximo de trabalhos abertos do Invoke Data Automation Async para imagens |
(Automação de dados) InvokeDataAutomationAsync - Vídeo - Número máximo de trabalhos simultâneos |
us-east-1: 20 us-west-2: 20 Cada uma das outras regiões suportadas: 3 |
Sim |
O número máximo de trabalhos abertos do Invoke Data Automation Async para vídeos |
(Automação de dados) Taxa máxima de amostragem de áudio (Hz) | Cada região suportada: 48.000 | Não | A taxa máxima de amostragem de áudio |
(Automação de dados) Máximo de plantas por projeto (áudios) | Cada região compatível: 1 | Não | O número máximo de plantas por projeto para áudios |
(Automação de dados) Máximo de plantas por projeto (documentos) | Cada região compatível: 40 | Não | O número máximo de plantas por projeto para documentos |
(Automação de dados) Máximo de plantas por projeto (imagens) | Cada região compatível: 1 | Não | O número máximo de plantas por projeto para imagens |
(Automação de dados) Máximo de esquemas por projeto (vídeos) | Cada região compatível: 1 | Não | O número máximo de plantas por projeto para vídeos |
(Automação de dados) Tamanho máximo do blueprint JSON (caracteres) | Cada região compatível: 100.000 | Não | O tamanho máximo do JSON em caracteres |
(Automação de dados) Níveis máximos de hierarquia de campo | Cada região compatível: 1 | Não | O nível máximo de número da hierarquia de campos |
(Automação de dados) Número máximo de páginas por documento | Cada região com suporte: 3.000 | Não | O número máximo de páginas por documento |
(Automação de dados) Resolução máxima | Cada região compatível: 8.000 | Não | A resolução máxima para imagens |
(Automação de dados) Tamanho máximo do arquivo de áudio (MB) | Cada região compatível: 2.048 | Não | O tamanho máximo do arquivo para áudio |
(Automação de dados) Duração máxima do áudio (minutos) | Cada região suportada: 240 | Não | A duração máxima do áudio em minutos |
(Automação de dados) Tamanho máximo do arquivo do documento (MB) | Cada região com suporte: 500 | Não | O tamanho máximo do arquivo |
(Automação de dados) Tamanho máximo do arquivo de imagem (MB) | Cada região compatível: 5 | Não | O tamanho máximo do arquivo para imagens |
(Automação de dados) Número máximo de esquemas por solicitação de inferência inicial (áudios) | Cada região compatível: 1 | Não | O número máximo de blueprint embutido em Iniciar solicitação de inferência |
(Automação de dados) Número máximo de esquemas por solicitação de inferência inicial (documentos) | Cada região com suporte: 10 | Não | O número máximo de blueprint embutido em Iniciar solicitação de inferência |
(Automação de dados) Número máximo de esquemas por solicitação de inferência inicial (imagens) | Cada região compatível: 1 | Não | O número máximo de blueprint embutido em Iniciar solicitação de inferência |
(Automação de dados) Número máximo de esquemas por solicitação de inferência inicial (vídeos) | Cada região compatível: 1 | Não | O número máximo de blueprint embutido em Iniciar solicitação de inferência |
(Automação de dados) Número máximo de campos de lista por blueprint | Cada região compatível: 15 | Não | O número máximo de campos de lista por Blueprint |
(Automação de dados) Tamanho máximo do arquivo de vídeo (MB) | Cada região compatível: 10,240 | Não | O tamanho máximo do arquivo para vídeos |
(Automação de dados) Duração máxima do vídeo (minutos) | Cada região suportada: 240 | Não | A duração máxima dos vídeos em minutos |
(Automação de dados) Taxa mínima de amostragem de áudio (Hz) | Cada região compatível: 8.000 | Não | A taxa mínima de amostragem de áudio |
(Automação de dados) Duração mínima do áudio (milissegundos) | Cada região com suporte: 500 | Não | A duração mínima do áudio em milissegundos |
(Avaliação) Número de trabalhos simultâneos de avaliação automática de modelos | Cada região compatível: 20 | Não | O número máximo de trabalhos de avaliação automática de modelos que você pode especificar ao mesmo tempo nessa conta na região atual. |
(Avaliação) Número de trabalhos de avaliação de modelos simultâneos que usam trabalhadores humanos | Cada região com suporte: 10 | Não | O número máximo de trabalhos de avaliação de modelo que usam trabalhadores humanos que você pode especificar ao mesmo tempo nessa conta na região atual. |
(Avaliação) Número de métricas personalizadas | Cada região com suporte: 10 | Não | O número máximo de métricas personalizadas que você pode especificar em um trabalho de avaliação de modelo que usa trabalhadores humanos. |
(Avaliação) Número de conjuntos de dados instantâneos personalizados em um trabalho de avaliação de modelo baseado em humanos | Cada região compatível: 1 | Não | O número máximo de conjuntos de dados de solicitações personalizadas que você pode especificar em um trabalho de avaliação de modelo baseado em humanos nessa conta na região atual. |
(Avaliação) Número de conjuntos de dados por trabalho | Cada região compatível: 5 | Não | O número máximo de conjuntos de dados que você pode especificar em um trabalho automatizado de avaliação de modelo. Isso inclui conjuntos de dados de prompt personalizados e integrados. |
(Avaliação) Número de trabalhos de avaliação | Cada região com suporte: 5.000 | Não | O número máximo de trabalhos de avaliação de modelo que você pode criar nessa conta na região atual. |
(Avaliação) Número de métricas por conjunto de dados | Cada região compatível: 3 | Não | O número máximo de métricas que você pode especificar por conjunto de dados em um trabalho automatizado de avaliação de modelo. Isso inclui métricas personalizadas e incorporadas. |
(Avaliação) Número de modelos em um trabalho de avaliação de modelos que usa trabalhadores humanos | Cada região compatível: 2 | Não | O número máximo de modelos que você pode especificar em um trabalho de avaliação de modelo que usa trabalhadores humanos. |
(Avaliação) Número de modelos no trabalho de avaliação automatizada de modelos | Cada região compatível: 1 | Não | O número máximo de modelos que você pode especificar em um trabalho automatizado de avaliação de modelos. |
(Avaliação) Número de solicitações em um conjunto de dados de solicitações personalizadas | Cada região com suporte: 1.000 | Não | O número máximo de solicitações que um conjunto de dados de solicitações personalizadas pode conter. |
(Avaliação) Tamanho do prompt | Cada região compatível: 4 | Não | O tamanho máximo (em KB) de um prompt individual em um conjunto de dados de prompt personalizado. |
(Avaliação) Tempo de tarefa para trabalhadores | Cada região compatível: 30 | Não | A duração máxima (em dias) que um trabalhador pode ter para concluir tarefas. |
(Fluxos) Nodos de agente por fluxo | Cada região compatível: 20 | Não | O número máximo de nós do agente. |
(Fluxos) Nodos coletores por fluxo | Cada região compatível: 1 | Não | O número máximo de nós coletores. |
(Fluxos) Condição de nós por fluxo | Cada região compatível: 5 | Não | O número máximo de nós de condição. |
(Fluxos) Condições por nó de condição | Cada região compatível: 5 | Não | O número máximo de condições por nó de condição. |
(Fluxos) CreateFlow solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de CreateFlow solicitações por segundo. |
(Fluxos) CreateFlowAlias solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de CreateFlowAlias solicitações por segundo. |
(Fluxos) CreateFlowVersion solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de CreateFlowVersion solicitações por segundo. |
(Fluxos) DeleteFlow solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de DeleteFlow solicitações por segundo. |
(Fluxos) DeleteFlowAlias solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de DeleteFlowAlias solicitações por segundo. |
(Fluxos) DeleteFlowVersion solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de DeleteFlowVersion solicitações por segundo. |
(Fluxos) Apelidos de fluxo por fluxo | Cada região com suporte: 10 | Não | O número máximo de aliases de fluxo. |
(Fluxos) Execuções de fluxo por conta | Cada região com suporte: 1.000 | Sim |
O número máximo de execuções de fluxo por conta. |
(Fluxos) Versões de fluxo por fluxo | Cada região com suporte: 10 | Não | O número máximo de versões de fluxo. |
(Fluxos) Fluxos por conta | Cada região compatível: 100 | Sim |
O número máximo de fluxos por conta. |
(Fluxos) GetFlow solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de GetFlow solicitações por segundo. |
(Fluxos) GetFlowAlias solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de GetFlowAlias solicitações por segundo. |
(Fluxos) GetFlowVersion solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de GetFlowVersion solicitações por segundo. |
(Fluxos) Nós de código embutidos por fluxo | Cada região compatível: 5 | Não | O número máximo de nós de código em linha por fluxo. |
(Fluxos) Nós de entrada por fluxo | Cada região compatível: 1 | Não | O número máximo de nós de entrada de fluxo. |
(Fluxos) Nódulos iteradores por fluxo | Cada região compatível: 1 | Não | O número máximo de nós iteradores. |
(Fluxos) Nódulos da base de conhecimento por fluxo | Cada região compatível: 20 | Não | O número máximo de nós da base de conhecimento. |
(Fluxos) Nós da função Lambda por fluxo | Cada região compatível: 20 | Não | O número máximo de nós da função Lambda. |
(Fluxos) Nódulos Lex por fluxo | Cada região compatível: 5 | Não | O número máximo de nós Lex. |
(Fluxos) ListFlowAliases solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de ListFlowAliases solicitações por segundo. |
(Fluxos) ListFlowVersions solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de ListFlowVersions solicitações por segundo. |
(Fluxos) ListFlows solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de ListFlows solicitações por segundo. |
(Fluxos) Nós de saída por fluxo | Cada região compatível: 20 | Não | O número máximo de nós de saída de fluxo. |
(Fluxos) PrepareFlow solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de PrepareFlow solicitações por segundo. |
(Fluxos) Nodos de alerta por fluxo | Cada região compatível: 20 | Sim |
O número máximo de nós de prompt. |
(Fluxos) nós de recuperação S3 por fluxo | Cada região com suporte: 10 | Não | O número máximo de nós de recuperação do S3. |
(Fluxos) nós de armazenamento S3 por fluxo | Cada região com suporte: 10 | Não | O número máximo de nós de armazenamento S3. |
(Fluxos) Total de nós por fluxo | Cada região compatível: 40 | Não | O número máximo de nós em um fluxo. |
(Fluxos) UpdateFlow solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de UpdateFlow solicitações por segundo. |
(Fluxos) UpdateFlowAlias solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de UpdateFlowAlias solicitações por segundo. |
(Fluxos) ValidateFlowDefinition solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de ValidateFlowDefinition solicitações por segundo. |
(Guardrails) Políticas de raciocínio automatizado por guarda-corpo | Cada região compatível: 2 | Não | O número máximo de políticas de raciocínio automatizado por grade de proteção. |
(Guardrails) Tamanho da consulta de base contextual em unidades de texto | Cada região compatível: 1 | Não | O tamanho máximo, em unidades de texto, da consulta para fundamentação contextual |
(Guardrails) Tamanho da resposta de base contextual em unidades de texto | Cada região compatível: 5 | Não | O tamanho máximo, em unidades de texto, da resposta para fundamentação contextual |
(Guardrails) Tamanho da fonte de base contextual em unidades de texto |
us-east-1: 100 us-west-2: 100 Cada uma das outras regiões compatíveis: 50 |
Não | O tamanho máximo, em unidades de texto, da fonte de aterramento para fundamentação contextual |
(Guardrails) Exemplos de frases por tópico | Cada região compatível: 5 | Não | O número máximo de exemplos de tópicos que podem ser incluídos por tópico |
(Guardrails) Guardrails por conta | Cada região compatível: 100 | Não | O número máximo de grades de proteção em uma conta |
(Guardrails) Unidades de texto da política de filtro ApplyGuardrail de conteúdo sob demanda por segundo |
us-east-1: 200 us-west-2: 200 Cada uma das outras regiões compatíveis: 25 |
Sim |
O número máximo de unidades de texto que podem ser processadas para políticas de filtro de conteúdo por segundo |
(Guardrails) Unidades de texto da política de filtro de ApplyGuardrail conteúdo sob demanda por segundo (padrão) |
us-east-1: 200 us-west-2: 200 Cada uma das outras regiões compatíveis: 25 |
Sim |
O número máximo de unidades de texto que podem ser processadas para políticas de filtro de conteúdo por segundo. Isso se aplica ao modelo padrão de política de conteúdo. |
(Guardrails) Unidades de texto da política de tópicos ApplyGuardrail negados sob demanda por segundo |
us-east-1:50 us-west-2:50 Cada uma das outras regiões compatíveis: 25 |
Sim |
O número máximo de unidades de texto que podem ser processadas para políticas de tópicos negados por segundo |
(Guardrails) Unidades de texto da política de tópicos ApplyGuardrail negados sob demanda por segundo (padrão) |
us-east-1: 200 us-west-2: 200 Cada uma das outras regiões compatíveis: 25 |
Sim |
O número máximo de unidades de texto que podem ser processadas para políticas de tópicos negados por segundo. Isso se aplica ao modelo de política de tópicos padrão. |
(Guardrails) Taxa de intermitência de unidades de texto da política de filtro de informações ApplyGuardrail confidenciais sob demanda |
us-east-1:400 Cada uma das outras regiões compatíveis: 25 |
Não | O número máximo de unidades de texto que podem ser processadas para políticas de filtro de informações confidenciais em uma sequência. |
(Guardrails) Informações ApplyGuardrail confidenciais sob demanda filtram unidades de texto da política por segundo |
us-east-1: 200 us-west-2: 200 Cada uma das outras regiões compatíveis: 25 |
Sim |
O número máximo de unidades de texto que podem ser processadas para políticas de filtro de informações confidenciais por segundo |
(Guardrails) Taxa de intermitência de unidades de texto da política de filtro do ApplyGuardrail Word sob demanda |
us-east-1:400 Cada uma das outras regiões compatíveis: 25 |
Não | O número máximo de unidades de texto que podem ser processadas para políticas de filtro do Word em uma sequência. |
(Guardrails) Unidades de texto da política de filtro do ApplyGuardrail Word sob demanda por segundo |
us-east-1: 200 us-west-2: 200 Cada uma das outras regiões compatíveis: 25 |
Sim |
O número máximo de unidades de texto que podem ser processadas para políticas de filtro do Word por segundo |
(Guardrails) Taxa de explosão de unidades de texto de ApplyGuardrail políticas contextuais sob demanda | Cada região suportada: 106 | Sim |
O número máximo de unidades de texto que podem ser processadas para políticas de fundamentação contextual em uma sequência. |
(Guardrails) Unidades de texto da política de fundamentação ApplyGuardrail contextual sob demanda por segundo | Cada região suportada: 106 | Sim |
O número máximo de unidades de texto que podem ser processadas para políticas de fundamentação contextual por segundo |
(Guardrails) Solicitações sob demanda por segundo ApplyGuardrail |
us-east-1:50 us-west-2:50 Cada uma das outras regiões compatíveis: 25 |
Sim |
O número máximo de chamadas de ApplyGuardrail API permitidas por segundo |
(Guardrails) Entidades Regex no filtro de informações confidenciais | Cada região com suporte: 10 | Não | O número máximo de regexes do filtro de proteção que podem ser incluídas em uma política de informações confidenciais |
(Guardrails) Comprimento do Regex em caracteres | Cada região com suporte: 500 | Não | O comprimento máximo, em caracteres, de um filtro de guardrail regex |
(Guardrails) Tópicos por guarda-corpo | Cada região compatível: 30 | Não | O número máximo de tópicos que podem ser definidos nas políticas de tópicos do Guardail |
(Guardrails) Versões por guarda-corpo | Cada região compatível: 20 | Não | O número máximo de versões que um guarda-corpo pode ter |
(Guardrails) Tamanho da palavra em caracteres | Cada região compatível: 100 | Não | O tamanho máximo de uma palavra, em caracteres, em uma lista de palavras bloqueadas |
(Guardrails) Política de palavras por palavra | Cada região compatível: 10.000 | Não | O número máximo de palavras que podem ser incluídas em uma lista de palavras bloqueadas |
(Bases de conhecimento) Concorrentes IngestKnowledgeBaseDocuments e DeleteKnowledgeBaseDocuments solicitações por conta | Cada região com suporte: 10 | Não | O número máximo de DeleteKnowledgeBaseDocuments solicitações IngestKnowledgeBaseDocuments e solicitações que podem ser executadas ao mesmo tempo em uma conta. |
(Bases de conhecimento) Tarefas de ingestão simultâneas por conta | Cada região compatível: 5 | Não | O número máximo de trabalhos de ingestão que podem ser executados ao mesmo tempo em uma conta. |
(Bases de conhecimento) Tarefas de ingestão simultâneas por fonte de dados | Cada região compatível: 1 | Não | O número máximo de trabalhos de ingestão que podem ser executados ao mesmo tempo para uma fonte de dados. |
(Bases de conhecimento) Tarefas de ingestão simultâneas por base de conhecimento | Cada região compatível: 1 | Não | O número máximo de trabalhos de ingestão que podem ser executados ao mesmo tempo em uma base de conhecimento. |
(Bases de conhecimento) CreateDataSource solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de CreateDataSource API por segundo. |
(Bases de conhecimento) CreateKnowledgeBase solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de CreateKnowledgeBase API por segundo. |
(Bases de conhecimento) Fontes de dados por base de conhecimento | Cada região compatível: 5 | Não | O número máximo de fontes de dados por base de conhecimento. |
(Bases de conhecimento) DeleteDataSource solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de DeleteDataSource API por segundo. |
(Bases de conhecimento) DeleteKnowledgeBase solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de DeleteKnowledgeBase API por segundo. |
(Bases de conhecimento) DeleteKnowledgeBaseDocuments solicitações por segundo | Cada região compatível: 5 | Não | O número máximo de solicitações de DeleteKnowledgeBaseDocuments API por segundo. |
(Bases de conhecimento) Arquivos a serem adicionados ou atualizados por tarefa de ingestão | Cada região suportada: 5.000.000 | Não | O número máximo de arquivos novos e atualizados que podem ser ingeridos por tarefa de ingestão. |
(Bases de conhecimento) Arquivos a serem excluídos por tarefa de ingestão | Cada região suportada: 5.000.000 | Não | O número máximo de arquivos que podem ser excluídos por tarefa de ingestão. |
(Bases de conhecimento) Arquivos a serem ingeridos por IngestKnowledgeBaseDocuments trabalho. | Cada região compatível: 25 | Não | O número máximo de documentos que podem ser ingeridos por IngestKnowledgeBaseDocuments solicitação. |
(Bases de conhecimento) GenerateQuery solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de GenerateQuery API por segundo. |
(Bases de conhecimento) GetDataSource solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações de GetDataSource API por segundo. |
(Bases de conhecimento) GetIngestionJob solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações de GetIngestionJob API por segundo. |
(Bases de conhecimento) GetKnowledgeBase solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações de GetKnowledgeBase API por segundo. |
(Bases de conhecimento) GetKnowledgeBaseDocuments solicitações por segundo | Cada região compatível: 5 | Não | O número máximo de solicitações de GetKnowledgeBaseDocuments API por segundo. |
(Bases de conhecimento) IngestKnowledgeBaseDocuments solicitações por segundo | Cada região compatível: 5 | Não | O número máximo de solicitações de IngestKnowledgeBaseDocuments API por segundo. |
Tamanho IngestKnowledgeBaseDocuments total da carga útil (bases de conhecimento) | Cada região compatível: 6 | Não | O tamanho máximo (em MB) da carga útil total em uma IngestKnowledgeBaseDocuments solicitação. |
(Bases de conhecimento) Tamanho do arquivo de trabalho de ingestão | Cada região compatível: 50 | Não | O tamanho máximo (em MB) de um arquivo em uma tarefa de ingestão. |
(Bases de conhecimento) Tamanho do trabalho de ingestão | Cada região compatível: 100 | Não | O tamanho máximo (em GB) de uma tarefa de ingestão. |
(Bases de conhecimento) Bases de conhecimento por conta | Cada região compatível: 100 | Não | O número máximo de bases de conhecimento por conta. |
(Bases de conhecimento) ListDataSources solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações de ListDataSources API por segundo. |
(Bases de conhecimento) ListIngestionJobs solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações de ListIngestionJobs API por segundo. |
(Bases de conhecimento) ListKnowledgeBaseDocuments solicitações por segundo | Cada região compatível: 5 | Não | O número máximo de solicitações de ListKnowledgeBaseDocuments API por segundo. |
(Bases de conhecimento) ListKnowledgeBases solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações de ListKnowledgeBases API por segundo. |
(Bases de conhecimento) Número máximo de arquivos para o analisador BDA | Cada região com suporte: 1.000 | Não | O número máximo de arquivos que podem ser usados com o Amazon Bedrock Data Automation como analisador. |
(Bases de conhecimento) Número máximo de arquivos para Foundation Models como analisador | Cada região com suporte: 1.000 | Não | O número máximo de arquivos que podem ser usados com Foundation Models como analisador. |
(Bases de conhecimento) Classifique novamente as solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações da API Rerank por segundo. |
(Bases de conhecimento) Recupere solicitações por segundo | Cada região compatível: 20 | Não | O número máximo de solicitações da API Retrieve por segundo. |
(Bases de conhecimento) RetrieveAndGenerate solicitações por segundo | Cada região compatível: 20 | Não | O número máximo de solicitações de RetrieveAndGenerate API por segundo. |
(Bases de conhecimento) RetrieveAndGenerateStream solicitações por segundo | Cada região compatível: 20 | Não | O número máximo de solicitações de RetrieveAndGenerateStream API por segundo. |
(Bases de conhecimento) StartIngestionJob solicitações por segundo | Cada região suportada: 0,1 | Não | O número máximo de solicitações de StartIngestionJob API por segundo. |
(Bases de conhecimento) UpdateDataSource solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de UpdateDataSource API por segundo. |
(Bases de conhecimento) UpdateKnowledgeBase solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de UpdateKnowledgeBase API por segundo. |
(Bases de conhecimento) Tamanho da consulta do usuário | Cada região com suporte: 1.000 | Não | O tamanho máximo (em caracteres) de uma consulta do usuário. |
(Personalização do modelo) Modelos personalizados por conta | Cada região compatível: 100 | Sim |
O número máximo de modelos personalizados em uma conta. |
(Personalização do modelo) Implantações de modelos personalizados em andamento | Cada região compatível: 2 | Sim |
O número máximo de implantações de modelos personalizados em andamento |
(Personalização do modelo) Tamanho máximo do arquivo de entrada para trabalhos de personalização de destilação | Cada região compatível: 2 gigabites | Não | O tamanho máximo do arquivo de entrada para trabalhos de personalização de destilação. |
(Personalização do modelo) Comprimento máximo da linha para trabalhos de personalização de destilação | Cada região compatível: 16 kilobytes | Não | O comprimento máximo da linha no arquivo de entrada para trabalhos de personalização de destilação. |
(Personalização do modelo) Número máximo de solicitações para trabalhos de personalização de destilação | Cada região compatível: 15.000 | Não | O número máximo de avisos necessários para trabalhos de personalização da destilação. |
(Personalização do modelo) Tamanho máximo do contexto de ajuste fino do modelo do aluno para trabalhos de personalização de destilação do Amazon Nova Micro V1 | Cada região suportada: 32.000 | Não | A duração máxima do contexto de ajuste fino do modelo estudantil para trabalhos de personalização de destilação do Amazon Nova Micro V1. |
(Personalização do modelo) Tamanho máximo do contexto de ajuste fino do modelo do aluno para trabalhos de personalização de destilação do Amazon Nova V1 | Cada região suportada: 32.000 | Não | O tamanho máximo do contexto de ajuste fino do modelo do aluno para trabalhos de personalização de destilação do Amazon Nova V1. |
(Personalização do modelo) Tamanho máximo do contexto de ajuste fino do modelo do aluno para trabalhos de personalização de destilação Anthropic Claude 3 haiku 20240307 V1 | Cada região suportada: 32.000 | Não | A duração máxima do contexto de ajuste fino do modelo estudantil para trabalhos de personalização de destilação Anthropic Claude 3 haiku 20240307 V1. |
(Personalização do modelo) Tamanho máximo do contexto de ajuste fino do modelo do aluno para trabalhos de personalização de destilação do Llama 3.1 70B Instruct V1 | Cada região compatível: 16.000 | Não | A duração máxima do contexto de ajuste fino do modelo estudantil para trabalhos de personalização de destilação do Llama 3.1 70B Instruct V1. |
(Personalização do modelo) Tamanho máximo do contexto de ajuste fino do modelo do aluno para trabalhos de personalização de destilação do Llama 3.1 8B Instruct V1 | Cada região suportada: 32.000 | Não | O tamanho máximo do contexto de ajuste fino do modelo do aluno para trabalhos de personalização de destilação do Llama 3.1 8B Instruct V1. |
(Personalização do modelo) Número mínimo de solicitações para trabalhos de personalização de destilação | Cada região compatível: 100 | Não | O número mínimo de avisos necessários para trabalhos de personalização da destilação. |
(Personalização do modelo) Tarefas de personalização agendadas | Cada região compatível: 2 | Não | O número máximo de trabalhos de personalização agendados. |
(Personalização do modelo) Soma dos registros de treinamento e validação de um trabalho de ajuste fino do Amazon Nova Lite | Cada região com suporte: 20.000 | Sim |
O número máximo combinado de registros de treinamento e validação permitiu um trabalho de ajuste fino do Amazon Nova Lite. |
(Personalização do modelo) Soma dos registros de treinamento e validação de um trabalho de ajuste fino do Amazon Nova Micro | Cada região com suporte: 20.000 | Sim |
O número máximo combinado de registros de treinamento e validação permitiu um trabalho de ajuste fino do Amazon Nova Micro. |
(Personalização do modelo) Soma dos registros de treinamento e validação de um trabalho de ajuste fino do Amazon Nova Pro | Cada região com suporte: 10.000 | Sim |
O número máximo combinado de registros de treinamento e validação permitiu um trabalho de ajuste fino do Amazon Nova Pro. |
(Personalização do modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Claude 3 Haiku v1 | Cada região com suporte: 10.000 | Sim |
O número máximo combinado de registros de treinamento e validação permitiu um trabalho de ajuste fino do Claude 3 Haiku. |
(Personalização do modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Claude 3-5-Haiku v1 | Cada região com suporte: 10.000 | Sim |
O número máximo combinado de registros de treinamento e validação permitiu um trabalho de ajuste fino de Claude 3-5-Haiku. |
(Personalização do modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Meta Llama 2 13B v1 | Cada região com suporte: 10.000 | Sim |
O número máximo combinado de registros de treinamento e validação permitiu um trabalho de ajuste fino do Meta Llama 2 13B. |
(Personalização do modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Meta Llama 2 70B v1 | Cada região com suporte: 10.000 | Sim |
O número máximo combinado de registros de treinamento e validação permitiu um trabalho de ajuste fino do Meta Llama 2 70B. |
(Personalização do modelo) Soma dos registros de treinamento e validação de um trabalho de ajuste fino do Meta Llama 3.1 70B Instruct v1 | Cada região com suporte: 10.000 | Sim |
O número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Meta Llama 3.1 70B Instruct. |
(Personalização do modelo) Soma dos registros de treinamento e validação de um trabalho de ajuste fino do Meta Llama 3.1 8B Instruct v1 | Cada região com suporte: 10.000 | Sim |
O número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Meta Llama 3.1 8B Instruct. |
(Personalização do modelo) Soma dos registros de treinamento e validação de um trabalho de ajuste fino do Meta Llama 3.2 11B Instruct v1 | Cada região com suporte: 10.000 | Sim |
O número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Meta Llama 3.2 11B Instruct. |
(Personalização do modelo) Soma dos registros de treinamento e validação de um trabalho de ajuste fino do Meta Llama 3.2 1B Instruct v1 | Cada região com suporte: 10.000 | Sim |
O número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Meta Llama 3.2 1B Instruct. |
(Personalização do modelo) Soma dos registros de treinamento e validação de um trabalho de ajuste fino do Meta Llama 3.2 3B Instruct v1 | Cada região com suporte: 10.000 | Sim |
O número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Meta Llama 3.2 3B Instruct. |
(Personalização do modelo) Soma dos registros de treinamento e validação de um trabalho de ajuste fino do Meta Llama 3.2 90B Instruct v1 | Cada região com suporte: 10.000 | Sim |
O número máximo combinado de registros de treinamento e validação permitido para um trabalho de ajuste fino do Meta Llama 3.2 90B Instruct. |
(Personalização do modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Titan Image Generator G1 V1 | Cada região com suporte: 10.000 | Sim |
O número máximo combinado de registros de treinamento e validação permitiu um trabalho de ajuste fino do Titan Image Generator. |
(Personalização do modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Titan Image Generator G1 V2 | Cada região com suporte: 10.000 | Sim |
O número máximo combinado de registros de treinamento e validação permitiu um trabalho de ajuste fino do Titan Image Generator V2. |
(Personalização do modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Titan Multimodal Embeddings G1 v1 | Cada região compatível: 50.000 | Sim |
O número máximo combinado de registros de treinamento e validação permitiu um trabalho de ajuste fino da Titan Multimodal Embeddings. |
(Personalização do modelo) Soma dos registros de treinamento e validação de um trabalho de pré-treinamento contínuo do Titan Text G1 - Express v1 | Cada região compatível: 100.000 | Sim |
O número máximo combinado de registros de treinamento e validação permitido para um trabalho de pré-treinamento contínuo do Titan Text Express. |
(Personalização do modelo) Soma dos registros de treinamento e validação de um trabalho de ajuste fino do Titan Text G1 - Express v1 | Cada região com suporte: 10.000 | Sim |
O número máximo combinado de registros de treinamento e validação permitiu um trabalho de ajuste fino do Titan Text Express. |
(Personalização do modelo) Soma dos registros de treinamento e validação de um trabalho de pré-treinamento contínuo do Titan Text G1 - Lite v1 | Cada região compatível: 100.000 | Sim |
O número máximo combinado de registros de treinamento e validação permitido para um trabalho de pré-treinamento contínuo do Titan Text Lite. |
(Personalização do modelo) Soma dos registros de treinamento e validação para um trabalho de ajuste fino do Titan Text G1 - Lite v1 | Cada região com suporte: 10.000 | Sim |
O número máximo combinado de registros de treinamento e validação permitiu um trabalho de ajuste fino do Titan Text Lite. |
(Personalização do modelo) Soma dos registros de treinamento e validação de um trabalho de ajuste fino do Titan Text G1 - Premier v1 | Cada região com suporte: 20.000 | Sim |
O número máximo combinado de registros de treinamento e validação permitiu um trabalho de ajuste fino do Titan Text Premier. |
(Personalização do modelo) Número total de implantações de modelos personalizados | Cada região compatível: 5 | Sim |
Número total de implantações de modelos personalizados |
(Gerenciamento imediato) CreatePrompt solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de CreatePrompt solicitações por segundo. |
(Gerenciamento imediato) CreatePromptVersion solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de CreatePromptVersion solicitações por segundo. |
(Gerenciamento imediato) DeletePrompt solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de DeletePrompt solicitações por segundo. |
(Gerenciamento imediato) GetPrompt solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de GetPrompt solicitações por segundo. |
(Gerenciamento imediato) ListPrompts solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de ListPrompts solicitações por segundo. |
(Gerenciamento imediato) Solicitações por conta | Cada região com suporte: 500 | Sim |
O número máximo de solicitações. |
(Gerenciamento imediato) UpdatePrompt solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de UpdatePrompt solicitações por segundo. |
(Gerenciamento de solicitações) Versões por solicitação | Cada região com suporte: 10 | Não | O número máximo de versões por prompt. |
APIs por agente | Cada região compatível: 11 | Sim |
O número máximo APIs que você pode adicionar a um agente. |
Grupos de ações por agente | Cada região compatível: 20 | Sim |
O número máximo de grupos de ações que você pode adicionar a um agente. |
Agentes colaboradores por agente | Cada região com suporte: 1.000 | Sim |
O número máximo de agentes colaboradores que você pode adicionar a um agente. |
Agentes por conta | Cada região com suporte: 1.000 | Sim |
O número máximo de agentes em uma conta. |
AssociateAgentKnowledgeBase solicitações por segundo | Cada região compatível: 6 | Não | O número máximo de solicitações de AssociateAgentKnowledgeBase API por segundo. |
Aliases associados por agente | Cada região com suporte: 10 | Não | O número máximo de aliases que você pode associar a um agente. |
Bases de conhecimento associadas por agente | Cada região compatível: 2 | Sim |
O número máximo de bases de conhecimento que você pode associar a um agente. |
Tamanho do arquivo de entrada de inferência em lote (em GB) para Amazon Nova Premier | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Amazon Nova Premier. |
Tamanho do arquivo de entrada de inferência em lote (em GB) para Claude 3 Haiku | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para Claude 3 Haiku. |
Tamanho do arquivo de entrada de inferência em lote (em GB) para Claude 3 Opus | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para Claude 3 Opus. |
Tamanho do arquivo de entrada de inferência em lote (em GB) para Claude 3 Sonnet | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude 3 Sonnet. |
Tamanho do arquivo de entrada de inferência em lote (em GB) para Claude 3.5 Haiku | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para Claude 3.5 Haiku. |
Tamanho do arquivo de entrada de inferência em lote (em GB) para Claude 3.5 Sonnet | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude 3.5 Sonnet. |
Tamanho do arquivo de entrada de inferência em lote (em GB) para Claude 3.5 Sonnet v2 | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Claude 3.5 Sonnet v2. |
Tamanho do arquivo de entrada de inferência em lote (em GB) para Llama 3.1 405B Instruct | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.1 405B Instruct. |
Tamanho do arquivo de entrada de inferência em lote (em GB) para Llama 3.1 70B Instruct | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.1 70B Instruct. |
Tamanho do arquivo de entrada de inferência em lote (em GB) para Llama 3.1 8B Instruct | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.1 8B Instruct. |
Tamanho do arquivo de entrada de inferência em lote (em GB) para Llama 3.2 11B Instruct | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.2 11B Instruct. |
Tamanho do arquivo de entrada de inferência em lote (em GB) para Llama 3.2 1B Instruct | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote Llama 3.2 1B Instruct. |
Tamanho do arquivo de entrada de inferência em lote (em GB) para Llama 3.2 3B Instruct | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.2 3B Instruct. |
Tamanho do arquivo de entrada de inferência em lote (em GB) para Llama 3.2 90B Instruct | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.2 90B Instruct. |
Tamanho do arquivo de entrada de inferência em lote (em GB) para Llama 3.3 70B Instruct | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 3.3 70B Instruct. |
Tamanho do arquivo de entrada de inferência em lote (em GB) para Llama 4 Maverick | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 4 Maverick. |
Tamanho do arquivo de entrada de inferência em lote (em GB) para Llama 4 Scout | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Llama 4 Scout. |
Tamanho do arquivo de entrada de inferência em lote (em GB) para Mistral Large 2 (24,07) | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Mistral Large 2 (24,07). |
Tamanho do arquivo de entrada de inferência em lote (em GB) para Mistral Small | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Mistral Small. |
Tamanho do arquivo de entrada de inferência em lote (em GB) para Nova Lite V1 | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Nova Lite V1. |
Tamanho do arquivo de entrada de inferência em lote (em GB) para Nova Micro V1 | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Nova Micro V1. |
Tamanho do arquivo de entrada de inferência em lote (em GB) para Nova Pro V1 | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Nova Pro V1. |
Tamanho do arquivo de entrada de inferência em lote (em GB) para Titan Multimodal Embeddings G1 | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para Titan Multimodal Embeddings G1. |
Tamanho do arquivo de entrada de inferência em lote para Titan Text Embeddings V2 (em GB) | Cada região compatível: 1 | Não | O tamanho máximo de um único arquivo (em GB) enviado para inferência em lote para o Titan Text Embeddings V2. |
Tamanho do trabalho de inferência em lote (em GB) para o Amazon Nova Premier | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Amazon Nova Premier. |
Tamanho do trabalho de inferência em lote (em GB) para Claude 3 Haiku | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para Claude 3 Haiku. |
Tamanho do trabalho de inferência em lote (em GB) para Claude 3 Opus | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para Claude 3 Opus. |
Tamanho do trabalho de inferência em lote (em GB) para Claude 3 Sonnet | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote do Claude 3 Sonnet. |
Tamanho do trabalho de inferência em lote (em GB) para Claude 3.5 Haiku | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para Claude 3.5 Haiku. |
Tamanho do trabalho de inferência em lote (em GB) para Claude 3.5 Sonnet | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote do Claude 3.5 Sonnet. |
Tamanho do trabalho de inferência em lote (em GB) para Claude 3.5 Sonnet v2 | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para Claude 3.5 Sonnet v2. |
Tamanho do trabalho de inferência em lote (em GB) para Llama 3.1 405B Instruct | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.1 405B Instruct. |
Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.1 70B Instruct | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.1 70B Instruct. |
Tamanho do trabalho de inferência em lote (em GB) para Llama 3.1 8B Instruct | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.1 8B Instruct. |
Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.2 11B Instruct | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.2 11B Instruct. |
Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.2 1B Instruct | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.2 1B Instruct. |
Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.2 3B Instruct | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.2 3B Instruct. |
Tamanho do trabalho de inferência em lote (em GB) para o Llama 3.2 90B Instruct | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.2 90B Instruct. |
Tamanho do trabalho de inferência em lote (em GB) para Llama 3.3 70B Instruct | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 3.3 70B Instruct. |
Tamanho do trabalho de inferência em lote (em GB) para Llama 4 Maverick | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 4 Maverick. |
Tamanho do trabalho de inferência em lote (em GB) para Llama 4 Scout | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Llama 4 Scout. |
Tamanho do trabalho de inferência em lote (em GB) para Mistral Large 2 (24,07) | Cada região compatível: 5 | Não | O tamanho cumulativo máximo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para Mistral Large 2 (24,07). |
Tamanho do trabalho de inferência em lote (em GB) para Mistral Small | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para Mistral Small. |
Tamanho do trabalho de inferência em lote (em GB) para Nova Lite V1 | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Nova Lite V1. |
Tamanho do trabalho de inferência em lote (em GB) para Nova Micro V1 | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Nova Micro V1. |
Tamanho do trabalho de inferência em lote (em GB) para Nova Pro V1 | Cada região compatível: 100 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Nova Pro V1. |
Tamanho do trabalho de inferência em lote (em GB) para Titan Multimodal Embeddings G1 | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para o Titan Multimodal Embeddings G1. |
Tamanho do trabalho de inferência em lote para Titan Text Embeddings V2 (em GB) | Cada região compatível: 5 | Não | O tamanho máximo cumulativo de todos os arquivos de entrada (em GB) incluídos no trabalho de inferência em lote para Titan Text Embeddings V2. |
Caracteres nas instruções do agente | Cada região com suporte: 20.000 | Não | O número máximo de caracteres nas instruções de um agente. |
Trabalhos de importação simultânea de modelos | Cada região compatível: 1 | Não | O número máximo de trabalhos de importação de modelos que estão em andamento simultaneamente. |
CreateAgent solicitações por segundo | Cada região compatível: 6 | Não | O número máximo de solicitações de CreateAgent API por segundo. |
CreateAgentActionGroup solicitações por segundo | Cada região compatível: 12 | Não | O número máximo de solicitações de CreateAgentActionGroup API por segundo. |
CreateAgentAlias solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de CreateAgentAlias API por segundo. |
Solicitações de inferência do modelo entre regiões por minuto para Anthropic Claude 3.5 Haiku | Cada região compatível: 2.000 | Não | O número máximo de vezes que você pode ligar InvokeModel e InvokeModelWithResponseStream em um minuto. A cota considera a soma combinada InvokeModel e os InvokeModelWithResponseStream tokens do Anthropic Claude 3.5 Haiku. |
Solicitações de inferência do modelo entre regiões por minuto para o Anthropic Claude 3.5 Sonnet V2 |
us-west-2: 500 Cada uma das outras regiões compatíveis: 100 |
Não | O número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet V2. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência do modelo entre regiões por minuto para Anthropic Claude 3.5 Haiku | Cada região suportada: 4.000.000 | Sim |
O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações à Converse InvokeModel e à Anthropic Claude InvokeModelWithResponseStream 3.5 Haiku. ConverseStream |
Tokens de inferência do modelo entre regiões por minuto para o Anthropic Claude 3.5 Sonnet V2 |
us-west-2:4.000.000 Cada uma das outras regiões suportadas: 800.000 |
Sim |
O número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet V2. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelos entre regiões por minuto para o Amazon Nova Lite |
us-east-1: 2.000 us-east-2:2.000 us-west-1:2.000 us-west-2: 2.000 Cada uma das outras regiões compatíveis: 200 |
Não | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Lite. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelos entre regiões por minuto para o Amazon Nova Micro |
us-east-1: 2.000 us-east-2:2.000 us-west-2: 2.000 Cada uma das outras regiões compatíveis: 200 |
Não | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Micro. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelos entre regiões por minuto para o Amazon Nova Premier V1 | Cada região compatível: 200 | Não | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Premier V1. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelos entre regiões por minuto para o Amazon Nova Pro |
us-east-1: 200 us-east-2:200 us-west-1:200 us-west-2: 200 Cada uma das outras regiões compatíveis: 100 |
Não | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Pro. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelos entre regiões por minuto para Anthropic Claude 3 Haiku |
us-east-1: 2.000 us-west-2: 2.000 ap-northeast-1:400 ap-southeast-1:400 Cada uma das outras regiões compatíveis: 800 |
Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Anthropic Claude 3 Haiku. |
Solicitações de inferência de modelo entre regiões por minuto para Anthropic Claude 3 Opus | Cada região compatível: 100 | Não | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3 Opus. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude 3 Sonnet |
us-east-1: 1.000 us-west-2: 1.000 Cada uma das outras regiões compatíveis: 200 |
Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Anthropic Claude 3 Sonnet. |
Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude 3.5 Sonnet |
us-west-2: 500 ap-northeast-1:40 ap-southeast-1 ap-southeast-1:40 eu-central-1:40 eu-west-1:40 eu-west-3:40 Cada uma das outras regiões compatíveis: 100 |
Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto para o Anthropic Claude 3.5 Sonnet. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo entre regiões por minuto para o Anthropic Claude 3.7 Sonnet V1 |
us-east-1:250 us-east-2:250 us-west-2:250 eu-central-1:100 eu-north-1:100 eu-west-1:100 eu-west-3:100 Cada uma das outras regiões compatíveis: 50 |
Não | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.7 Sonnet V1. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo entre regiões por minuto para Anthropic Claude Opus 4 V1 | Cada região compatível: 200 | Não | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4 V1. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo entre regiões por minuto para Anthropic Claude Opus 4.1 | Cada região compatível: 50 | Não | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.1. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo entre regiões por minuto para Anthropic Claude Sonnet 4 V1 | Cada região compatível: 200 | Não | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4 V1. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelos entre regiões por minuto para DeepSeek R1 V1 | Cada região compatível: 200 | Não | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para DeepSeek R1 V1. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo entre regiões por minuto para o Meta Llama 3.1 405B Instruct | Cada região compatível: 400 | Não | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 405B Instruct. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo entre regiões por minuto para o Meta Llama 3.1 70B Instruct | Cada região compatível: 800 | Não | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 70B Instruct. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo entre regiões por minuto para o Meta Llama 3.1 8B Instruct | Cada região compatível: 1.600 | Não | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 8B Instruct. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo entre regiões por minuto para o Meta Llama 3.2 1B Instruct | Cada região compatível: 1.600 | Não | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 1B Instruct. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo entre regiões por minuto para o Meta Llama 3.2 3B Instruct | Cada região compatível: 1.600 | Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto para o Meta Llama 3.2 3B Instruct. A cota considera a soma combinada das solicitações de InvokeModel, InvokeModelWithResponseStream, Converse e. ConverseStream |
Solicitações de inferência de modelo entre regiões por minuto para o Meta Llama 3.3 70B Instruct | Cada região compatível: 800 | Não | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.3 70B Instruct. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo entre regiões por minuto para Meta Llama 4 Maverick V1 | Cada região compatível: 800 | Não | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 4 Maverick V1. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo entre regiões por minuto para Meta Llama 4 Scout V1 | Cada região compatível: 800 | Não | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 4 Scout V1. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo entre regiões por minuto para Mistral Pixtral Large 25.02 V1 | Cada região com suporte: 10 | Não | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Mistral Pixtral Large 25.02 V1. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelos entre regiões por minuto para o Twelve Labs Pegasus | Cada região compatível: 120 | Não | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Twelve Labs Pegasus. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo entre regiões por minuto para o Writer AI Palmyra X4 V1 | Cada região com suporte: 10 | Não | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Writer AI Palmyra X4 V1. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo entre regiões por minuto para o Writer AI Palmyra X5 V1 | Cada região com suporte: 10 | Não | O número máximo de solicitações entre regiões que você pode enviar para inferência de modelo em um minuto para o Writer AI Palmyra X5 V1. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo entre regiões por minuto para o Amazon Nova Lite |
us-east-1:4.000.000 us-east-2:4.000.000 us-west-1:4.000.000 us-west-2:4.000.000 Cada uma das outras regiões suportadas: 200.000 |
Sim |
O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Lite. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo entre regiões por minuto para o Amazon Nova Micro |
us-east-1:4.000.000 us-east-2:4.000.000 us-west-2:4.000.000 Cada uma das outras regiões suportadas: 200.000 |
Sim |
O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Micro. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo entre regiões por minuto para o Amazon Nova Premier V1 | Cada região suportada: 800.000 | Sim |
O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Premier V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo entre regiões por minuto para o Amazon Nova Pro |
us-east-1:800.000 us-east-2:800.000 us-west-1:800.000 us-west-2:800.000 Cada uma das outras regiões suportadas: 200.000 |
Sim |
O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Pro. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo entre regiões por minuto para Anthropic Claude 3 Haiku |
us-east-1:4.000.000 us-west-2:4.000.000 ap-northeast-1:400.000 ap-southeast-1 ap-southeast-1:400.000 Cada uma das outras regiões suportadas: 600.000 |
Sim |
O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações à Converse InvokeModel e à Anthropic Claude InvokeModelWithResponseStream 3 Haiku. ConverseStream |
Tokens de inferência de modelo entre regiões por minuto para Anthropic Claude 3 Opus | Cada região suportada: 800.000 | Sim |
O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3 Opus. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude 3 Sonnet |
us-east-1:2.000.000 us-west-2:2.000.000 Cada uma das outras regiões suportadas: 400.000 |
Sim |
O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e InvokeModelWithResponseStream para o Anthropic Claude 3 Sonnet. ConverseStream |
Tokens de inferência de modelo entre regiões por minuto para o Anthropic Claude 3.5 Sonnet |
us-west-2:4.000.000 ap-northeast-1:400.000 ap-southeast-1 ap-southeast-1:400.000 eu-central-1:400.000 eu-west-1:400.000 eu-west-3:400.000 Cada uma das outras regiões suportadas: 800.000 |
Sim |
O número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo entre regiões por minuto para Anthropic Claude 3.7 Sonnet V1 |
us-east-1:1.000.000 us-east-2:1.000.000 us-west-2:1.000.000 eu-central-1:100.000 eu-north-1:100.000 eu-west-1:100.000 eu-west-3:100.000 Cada uma das outras regiões suportadas: 50.000 |
Sim |
O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.7 Sonnet V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo entre regiões por minuto para Anthropic Claude Opus 4 V1 | Cada região compatível: 200.000 | Sim |
O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo entre regiões por minuto para Anthropic Claude Opus 4.1 | Cada região compatível: 100.000 | Sim |
O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Opus 4.1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo entre regiões por minuto para Anthropic Claude Sonnet 4 V1 | Cada região compatível: 200.000 | Sim |
O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude Sonnet 4 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência do modelo entre regiões por minuto para DeepSeek R1 V1 | Cada região compatível: 200.000 | Sim |
O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para DeepSeek R1 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo entre regiões por minuto para Meta Llama 3.1 405B Instruct | Cada região suportada: 800.000 | Sim |
O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 405B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo entre regiões por minuto para Meta Llama 3.1 70B Instruct | Cada região suportada: 600.000 | Sim |
O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 70B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo entre regiões por minuto para Meta Llama 3.1 8B Instruct | Cada região suportada: 600.000 | Sim |
O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 8B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo entre regiões por minuto para Meta Llama 3.2 1B Instruct | Cada região suportada: 600.000 | Sim |
O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 1B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo entre regiões por minuto para Meta Llama 3.2 3B Instruct | Cada região suportada: 600.000 | Sim |
O número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 3B Instruct. A cota considera a soma combinada de tokens para InvokeModel, InvokeModelWithResponseStream, Converse e. ConverseStream |
Tokens de inferência de modelo entre regiões por minuto para Meta Llama 3.3 70B Instruct | Cada região suportada: 600.000 | Sim |
O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.3 70B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo entre regiões por minuto para Meta Llama 4 Maverick V1 | Cada região suportada: 600.000 | Sim |
O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 4 Maverick V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo entre regiões por minuto para Meta Llama 4 Scout V1 | Cada região suportada: 600.000 | Sim |
O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Meta Llama 4 Scout V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo entre regiões por minuto para Mistral Pixtral Large 25.02 V1 | Cada região compatível: 80.000 | Sim |
O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Mistral Pixtral Large 25.02 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo entre regiões por minuto para o Writer AI Palmyra X4 V1 | Cada região compatível: 150.000 | Sim |
O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Writer AI Palmyra X4 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo entre regiões por minuto para o Writer AI Palmyra X5 V1 | Cada região compatível: 150.000 | Sim |
O número máximo de tokens entre regiões que você pode enviar para inferência de modelo em um minuto para o Writer AI Palmyra X5 V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Modelos personalizados com um status de criação por conta | Cada região compatível: 2 | Sim |
O número máximo de modelos personalizados com um status de criação. |
DeleteAgent solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de DeleteAgent API por segundo. |
DeleteAgentActionGroup solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de DeleteAgentActionGroup API por segundo. |
DeleteAgentAlias solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de DeleteAgentAlias API por segundo. |
DeleteAgentVersion solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de DeleteAgentVersion API por segundo. |
DisassociateAgentKnowledgeBase solicitações por segundo | Cada região compatível: 4 | Não | O número máximo de solicitações de DisassociateAgentKnowledgeBase API por segundo. |
Grupos de ação habilitados por agente | Cada região compatível: 15 | Sim |
O número máximo de grupos de ações que você pode ativar em um agente. |
Endpoints por perfil de inferência | Cada região compatível: 5 | Não | O número máximo de endpoints em um perfil de inferência. Um endpoint é definido por um modelo e pela região para a qual as solicitações de invocação ao modelo são enviadas. |
GetAgent solicitações por segundo | Cada região compatível: 15 | Não | O número máximo de solicitações de GetAgent API por segundo. |
GetAgentActionGroup solicitações por segundo | Cada região compatível: 20 | Não | O número máximo de solicitações de GetAgentActionGroup API por segundo. |
GetAgentAlias solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações de GetAgentAlias API por segundo. |
GetAgentKnowledgeBase solicitações por segundo | Cada região compatível: 15 | Não | O número máximo de solicitações de GetAgentKnowledgeBase API por segundo. |
GetAgentVersion solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações de GetAgentVersion API por segundo. |
Modelos importados por conta | Cada região compatível: 3 | Sim |
O número máximo de modelos importados em uma conta. |
Perfis de inferência por conta | Cada região com suporte: 1.000 | Sim |
O número máximo de perfis de inferência em uma conta. |
ListAgentActionGroups solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações de ListAgentActionGroups API por segundo. |
ListAgentAliases solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações de ListAgentAliases API por segundo. |
ListAgentKnowledgeBases solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações de ListAgentKnowledgeBases API por segundo. |
ListAgentVersions solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações de ListAgentVersions API por segundo. |
ListAgents solicitações por segundo | Cada região com suporte: 10 | Não | O número máximo de solicitações de ListAgents API por segundo. |
Número mínimo de registros por trabalho de inferência em lote para o Amazon Nova Premier | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Amazon Nova Premier. |
Número mínimo de registros por trabalho de inferência em lote para Claude 3 Haiku | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Claude 3 Haiku. |
Número mínimo de registros por trabalho de inferência em lote para Claude 3 Opus | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Claude 3 Opus. |
Número mínimo de registros por trabalho de inferência em lote para Claude 3 Sonnet | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3 Sonnet. |
Número mínimo de registros por trabalho de inferência em lote para Claude 3.5 Haiku | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Claude 3.5 Haiku. |
Número mínimo de registros por tarefa de inferência em lote para Claude 3.5 Sonnet | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.5 Sonnet. |
Número mínimo de registros por tarefa de inferência em lote para Claude 3.5 Sonnet v2 | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.5 Sonnet v2. |
Número mínimo de registros por trabalho de inferência de lote para o Llama 3.1 405B Instruct | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.1 405B Instruct. |
Número mínimo de registros por trabalho de inferência de lote para o Llama 3.1 70B Instruct | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.1 70B Instruct. |
Número mínimo de registros por trabalho de inferência de lote para Llama 3.1 8B Instruct | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.1 8B Instruct. |
Número mínimo de registros por trabalho de inferência em lote para o Llama 3.2 11B Instruct | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 11B Instruct. |
Número mínimo de registros por trabalho de inferência em lote para o Llama 3.2 1B Instruct | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote Llama 3.2 1B Instruct. |
Número mínimo de registros por trabalho de inferência de lote para o Llama 3.2 3B Instruct | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 3B Instruct. |
Número mínimo de registros por tarefa de inferência de lote para o Llama 3.2 90B Instruct | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 90B Instruct. |
Número mínimo de registros por tarefa de inferência em lote para o Llama 3.3 70B Instruct | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.3 70B Instruct. |
Número mínimo de registros por trabalho de inferência em lote para o Llama 4 Maverick | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 4 Maverick. |
Número mínimo de registros por trabalho de inferência de lote para o Llama 4 Scout | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 4 Scout. |
Número mínimo de registros por trabalho de inferência em lote para Mistral Large 2 (24.07) | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Mistral Large 2 (24,07). |
Número mínimo de registros por trabalho de inferência em lote para Mistral Small | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Mistral Small. |
Número mínimo de registros por trabalho de inferência em lote para o Nova Lite V1 | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova Lite V1. |
Número mínimo de registros por trabalho de inferência em lote para Nova Micro V1 | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova Micro V1. |
Número mínimo de registros por trabalho de inferência em lote para o Nova Pro V1 | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova Pro V1. |
Número mínimo de registros por trabalho de inferência em lote para Titan Multimodal Embeddings G1 | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Titan Multimodal Embeddings G1. |
Número mínimo de registros por trabalho de inferência em lote para Titan Text Embeddings V2 | Cada região compatível: 100 | Não | O número mínimo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Titan Text Embeddings V2. |
Modelo de tokens máximos de invocação por dia para o Amazon Nova Premier V1 (dobrado para chamadas entre regiões) | Cada região suportada: 576.000.000 | Não | Máximo diário de tokens para inferência de modelos para o Amazon Nova Premier V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável no caso de aumento aprovado do TPM. |
Modelo de tokens máximos de invocação por dia para o Anthropic Claude 3.7 Sonnet V1 (dobrado para chamadas entre regiões) | Cada região suportada: 720.000.000 | Não | Número máximo diário de tokens para inferência de modelo para Anthropic Claude 3.7 Sonnet V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável no caso de aumento aprovado do TPM. |
Número máximo de tokens de invocação do modelo por dia para o Anthropic Claude Opus 4 V1 (dobrado para chamadas entre regiões) | Cada região suportada: 144.000.000 | Não | Número máximo diário de tokens para inferência de modelo para Anthropic Claude Opus 4 V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável no caso de aumento aprovado do TPM. |
Número máximo de tokens de invocação do modelo por dia para o Anthropic Claude Opus 4.1 (dobrado para chamadas entre regiões) | Cada região suportada: 72.000.000 | Não | Número máximo diário de tokens para inferência de modelos para Anthropic Claude Opus 4.1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável no caso de aumento aprovado do TPM. |
Modelo de tokens máximos de invocação por dia para o Anthropic Claude Sonnet 4 V1 (dobrado para chamadas entre regiões) | Cada região suportada: 144.000.000 | Não | Número máximo diário de tokens para inferência de modelos para Anthropic Claude Sonnet 4 V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável no caso de aumento aprovado do TPM. |
Modelo de tokens máximos de invocação por dia para DeepSeek R1 V1 (dobrado para chamadas entre regiões) | Cada região suportada: 144.000.000 | Não | Tokens máximos diários para inferência de modelo para DeepSeek R1 V1. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável no caso de aumento aprovado do TPM. |
Modelo de tokens máximos de invocação por dia para OpenAI GPT OSS 120B (dobrado para chamadas entre regiões) | Cada região suportada: 1.440.000.000 | Não | Máximo diário de tokens para inferência de modelo para OpenAI GPT OSS 120B. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável no caso de aumento aprovado do TPM. |
Modelo de tokens máximos de invocação por dia para OpenAI GPT OSS 20B (dobrado para chamadas entre regiões) | Cada região suportada: 1.440.000.000 | Não | Máximo diário de tokens para inferência de modelo para OpenAI GPT OSS 20B. Combina a soma dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, InvokeModel e. InvokeModelWithResponseStream Duplicado para chamadas entre regiões; não aplicável no caso de aumento aprovado do TPM. |
Unidades de modelo, taxas de transferência provisionadas sem compromisso em todos os modelos básicos | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser distribuídas em taxas de transferência provisionadas sem compromisso para modelos básicos |
Unidades de modelo, taxas de transferência provisionadas sem compromisso em modelos personalizados | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser distribuídas em taxas de transferência provisionadas sem compromisso para modelos personalizados |
Unidades de modelo por modelo provisionado para o AI21 Labs Jurassic-2 Mid | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Labs Jurassic-2 Mid. AI21 |
Unidades de modelo por modelo provisionado para o AI21 Labs Jurassic-2 Ultra | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Labs Jurassic-2 Ultra. AI21 |
Unidades de modelo por modelo provisionado para o Amazon Nova Canvas | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Amazon Nova Canvas. |
Unidades de modelo por modelo provisionado para Amazon Titan Embeddings G1 - Texto | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para Amazon Titan Embeddings G1 - Text. |
Unidades de modelo por modelo provisionado para o Amazon Titan Image Generator G1 | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Amazon Titan Image Generator G1. |
Unidades de modelo por modelo provisionado para o Amazon Titan Image Generator G2 | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Amazon Titan Image Generator G2. |
Unidades de modelo por modelo provisionado para Amazon Titan Lite V1 4K | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Amazon Titan Text Lite V1 4K. |
Unidades de modelo por modelo provisionado para Amazon Titan Multimodal Embeddings G1 | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Amazon Titan Multimodal Embeddings G1. |
Unidades de modelo por modelo provisionado para Amazon Titan Text Embeddings V2 | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para Amazon Titan Text Embeddings V2. |
Unidades de modelo por modelo provisionado para Amazon Titan Text G1 - Express 8K | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Amazon Titan Text G1 - Express 8K. |
Unidades de modelo por modelo provisionado para Amazon Titan Text Premier V1 32K | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Amazon Titan Text Premier V1 32K. |
Unidades modelo por modelo provisionado para Anthropic Claude 3 Haiku 200K | Cada região compatível: 0 | Sim |
O número máximo de unidades modelo que podem ser alocadas a um modelo provisionado para o Anthropic Claude 3 Haiku 200K. |
Unidades modelo por modelo provisionado para Anthropic Claude 3 Haiku 48K | Cada região compatível: 0 | Sim |
O número máximo de unidades modelo que podem ser alocadas a um modelo provisionado para o Anthropic Claude 3 Haiku 48K. |
Unidades modelo por modelo provisionado para Anthropic Claude 3 Sonnet 200K | Cada região compatível: 0 | Sim |
O número máximo de unidades modelo que podem ser alocadas a um modelo provisionado para o Anthropic Claude 3 Sonnet 200K. |
Unidades modelo por modelo provisionado para Anthropic Claude 3 Sonnet 28K | Cada região compatível: 0 | Sim |
O número máximo de unidades modelo que podem ser alocadas a um modelo provisionado para o Anthropic Claude 3 Sonnet 28K. |
Unidades modelo por modelo provisionado para Anthropic Claude 3.5 Haiku 16K | Cada região compatível: 0 | Sim |
O número máximo de unidades modelo que podem ser alocadas a um modelo provisionado para Anthropic Claude 3.5 Haiku 16K. |
Unidades modelo por modelo provisionado para Anthropic Claude 3.5 Haiku 200K | Cada região compatível: 0 | Sim |
O número máximo de unidades modelo que podem ser alocadas a um modelo provisionado para Anthropic Claude 3.5 Haiku 200K. |
Unidades modelo por modelo provisionado para Anthropic Claude 3.5 Haiku 64K | Cada região compatível: 0 | Sim |
O número máximo de unidades modelo que podem ser alocadas a um modelo provisionado para Anthropic Claude 3.5 Haiku 64K. |
Unidades modelo por modelo provisionado para Anthropic Claude 3.5 Sonnet 18K | Cada região compatível: 0 | Sim |
O número máximo de unidades modelo que podem ser alocadas a um modelo provisionado para o Anthropic Claude 3.5 Sonnet 18K. |
Unidades modelo por modelo provisionado para Anthropic Claude 3.5 Sonnet 200K | Cada região compatível: 0 | Sim |
O número máximo de unidades modelo que podem ser alocadas a um modelo provisionado para o Anthropic Claude 3.5 Sonnet 200K. |
Unidades modelo por modelo provisionado para Anthropic Claude 3.5 Sonnet 51K | Cada região compatível: 0 | Sim |
O número máximo de unidades modelo que podem ser alocadas a um modelo provisionado para o Anthropic Claude 3.5 Sonnet 51K. |
Unidades de modelo por modelo provisionado para Anthropic Claude 3.5 Sonnet V2 18K | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Anthropic Claude 3.5 Sonnet V2 18K. |
Unidades de modelo por modelo provisionado para Anthropic Claude 3.5 Sonnet V2 200K | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Anthropic Claude 3.5 Sonnet V2 200K. |
Unidades de modelo por modelo provisionado para Anthropic Claude 3.5 Sonnet V2 51K | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Anthropic Claude 3.5 Sonnet V2 51K. |
Unidades de modelo por modelo provisionado para Anthropic Claude 3.7 V1.0 Sonnet 18K | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Anthropic Claude 3.7 V1.0 Sonnet 18K. |
Unidades de modelo por modelo provisionado para Anthropic Claude 3.7 V1.0 Sonnet 200K | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Anthropic Claude 3.7 V1.0 Sonnet 200K. |
Unidades de modelo por modelo provisionado para Anthropic Claude 3.7 V1.0 Sonnet 51K | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Anthropic Claude 3.7 V1.0 Sonnet 51K. |
Unidades de modelo por modelo provisionado para Anthropic Claude Instant V1 100K | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Anthropic Claude Instant V1 100K. |
Unidades de modelo por modelo provisionado para Anthropic Claude V2 100K | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Anthropic Claude V2 100K. |
Unidades modelo por modelo provisionado para Anthropic Claude V2 18K | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Anthropic Claude V2 18K. |
Unidades de modelo por modelo provisionado para Anthropic Claude V2.1 18K | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Anthropic Claude V2.1 18K. |
Unidades de modelo por modelo provisionado para Anthropic Claude V2.1 200K | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Anthropic Claude V2.1 200K. |
Unidades de modelo por modelo provisionado para o Cohere Command | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Cohere Command. |
Unidades de modelo por modelo provisionado para Cohere Command Light | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Cohere Command Light. |
Unidades de modelo por modelo provisionado para Cohere Command R | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Cohere Command R 128k. |
Unidades de modelo por modelo provisionado para Cohere Command R Plus | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Cohere Command R Plus 128k. |
Unidades de modelo por modelo provisionado para Cohere Embed English | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Cohere Embed English. |
Unidades de modelo por modelo provisionado para Cohere Embed Multilingual | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Cohere Embed Multilingual. |
Unidades de modelo por modelo provisionado para Meta Llama 2 13B | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para Meta Llama 2 13B. |
Unidades de modelo por modelo provisionado para Meta Llama 2 70B | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Meta Llama 2 70B. |
Unidades de modelo por modelo provisionado para Meta Llama 2 Chat 13B | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Meta Llama 2 Chat 13B. |
Unidades de modelo por modelo provisionado para Meta Llama 2 Chat 70B | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Meta Llama 2 Chat 70B. |
Unidades de modelo por modelo provisionado para Meta Llama 3 70B Instruct | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Meta Llama 3 70B Instruct. |
Unidades de modelo por modelo provisionado para Meta Llama 3 8B Instruct | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Meta Llama 3 8B Instruct. |
Unidades de modelo por modelo provisionado para Meta Llama 3.1 70B Instruct | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Meta Llama 3.1 70B Instruct. |
Unidades de modelo por modelo provisionado para Meta Llama 3.1 8B Instruct | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Meta Llama 3.1 8B Instruct. |
Unidades de modelo por modelo provisionado para Meta Llama 3.2 11B Instruct | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Meta Llama 3.2 11B Instruct. |
Unidades de modelo por modelo provisionado para Meta Llama 3.2 1B Instruct | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Meta Llama 3.2 1B Instruct. |
Unidades de modelo por modelo provisionado para Meta Llama 3.2 3B Instruct | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Meta Llama 3.2 3B Instruct. |
Unidades de modelo por modelo provisionado para Meta Llama 3.2 90B Instruct | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Meta Llama 3.2 90B Instruct. |
Unidades de modelo por modelo provisionado para Mistral Large 2407 | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Mistral Large 2407. |
Unidades de modelo por modelo provisionado para Mistral Small | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Mistral Small. |
Unidades de modelo por modelo provisionado para Stability.ai Stable Diffusion XL 0.8 | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para Stability.ai Stable Diffusion XL 0.8 |
Unidades de modelo por modelo provisionado para Stability.ai Stable Diffusion XL 1.0 | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para o Stability.ai Stable Diffusion XL 1.0. |
Unidades de modelo por modelo provisionado para a variante de comprimento de contexto de 128k para Amazon Nova Micro | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para a variante de comprimento de contexto de 128k para o Amazon Nova Micro |
Unidades de modelo por modelo provisionado para a variante de comprimento de contexto de 24k para o Amazon Nova Lite | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para a variante de comprimento de contexto de 24k para o Amazon Nova Lite |
Unidades de modelo por modelo provisionado para a variante de comprimento de contexto de 24k para Amazon Nova Micro | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para a variante de comprimento de contexto de 24k para o Amazon Nova Micro |
Unidades de modelo por modelo provisionado para a variante de comprimento de contexto de 24k para Amazon Nova Pro | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para a variante de comprimento de contexto de 24k para o Amazon Nova Pro |
Unidades de modelo por modelo provisionado para a variante de comprimento de contexto de 300k para o Amazon Nova Lite | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para a variante de comprimento de contexto de 300 mil para o Amazon Nova Lite |
Unidades de modelo por modelo provisionado para a variante de comprimento de contexto de 300k para o Amazon Nova Pro | Cada região compatível: 0 | Sim |
O número máximo de unidades de modelo que podem ser alocadas a um modelo provisionado para a variante de comprimento de contexto de 300 mil para o Amazon Nova Pro. |
Unidades modelo, com compromisso, para Provisioned Through criadas para Meta Llama 4 Scout 17B Instruct 10M | Cada região compatível: 0 | Sim |
O número máximo de unidades modelo que podem ser alocadas a uma taxa de transferência provisionada criada para o Meta Llama 4 Scout 17B Instruct 10M, com compromisso. |
Unidades modelo, com compromisso, para Provisioned Through criadas para Meta Llama 4 Scout 17B Instruct 128K | Cada região compatível: 0 | Sim |
O número máximo de unidades modelo que podem ser alocadas para uma taxa de transferência provisionada criada para o Meta Llama 4 Scout 17B Instruct 128K, com compromisso. |
Unidades modelo, com compromisso, para Provisioned Through criadas para Meta Maverick 4 Scout 17B Instruct 128K | Cada região compatível: 0 | Sim |
O número máximo de unidades do modelo que podem ser alocadas a uma taxa de transferência provisionada criada para o Meta Llama 4 Maverick 17B Instruct 128K, com compromisso. |
Unidades modelo, com compromisso, para Provisioned Through criadas para Meta Maverick 4 Scout 17B Instruct 1M | Cada região compatível: 0 | Sim |
O número máximo de unidades do modelo que podem ser alocadas a uma taxa de transferência provisionada criada para o Meta Llama 4 Maverick 17B Instruct 1M, com compromisso. |
Número de roteadores de prompt personalizados por conta | Cada região com suporte: 500 | Não | O número máximo de roteadores de prompt personalizados que você pode criar por conta e por região. |
Solicitações de inferência de modelo sob demanda e otimizadas para latência por minuto para o Meta Llama 3.1 405B Instruct | Cada região compatível: 100 | Não | O número máximo de solicitações sob demanda e otimizadas para latência que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 405B Instruct. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo sob demanda e otimizadas para latência por minuto para o Meta Llama 3.1 70B Instruct | Cada região compatível: 100 | Não | O número máximo de solicitações sob demanda e otimizadas para latência que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 70B Instruct. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo sob demanda e otimizados para latência por minuto para Meta Llama 3.1 405B Instruct | Cada região compatível: 40.000 | Não | O número máximo de tokens sob demanda e otimizados para latência que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 405B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo sob demanda e otimizados para latência por minuto para Meta Llama 3.1 70B Instruct | Cada região compatível: 40.000 | Não | O número máximo de tokens sob demanda e otimizados para latência que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 70B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações InvokeModel simultâneas sob demanda para o Amazon Nova Reel1.0 | Cada região com suporte: 10 | Não | O número máximo de solicitações de inferência de modelos simultâneos que você pode enviar para o Amazon Nova Reel 1.0. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações InvokeModel simultâneas sob demanda para o Amazon Nova Reel1.1 | Cada região compatível: 3 | Não | O número máximo de solicitações de inferência de modelos simultâneos que você pode enviar para o Amazon Nova Reel 1.1. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações InvokeModel simultâneas sob demanda para o Amazon Nova Sonic | Cada região compatível: 20 | Não | O número máximo de solicitações simultâneas que você pode enviar para inferência de modelo para o Amazon Nova Sonic. |
Solicitações InvokeModel simultâneas sob demanda para Twelve Labs Marengo | Cada região compatível: 30 | Não | O número máximo de InvokeModel solicitações simultâneas que você pode enviar para inferência de modelo para o Twelve Labs Marengo. |
Solicitações InvokeModel simultâneas sob demanda para Twelve Labs Pegasus | Cada região compatível: 30 | Não | O número máximo de InvokeModel solicitações simultâneas que você pode enviar para inferência de modelo para o Twelve Labs Pegasus. |
Solicitações de inferência de modelo otimizado para latência sob demanda por minuto para Anthropic Claude 3.5 Haiku | Cada região compatível: 100 | Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Anthropic Claude 3.5 Haiku, se a otimização da latência estiver configurada. |
Tokens de inferência de modelo otimizados para latência sob demanda por minuto para Anthropic Claude 3.5 Haiku | Cada região compatível: 500.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e InvokeModelWithResponseStream para o Anthropic Claude 3.5 Haiku ConverseStream, se a otimização da latência estiver configurada. |
Solicitações simultâneas de inferência de modelos sob demanda para o Luma Ray V2 | Cada região compatível: 1 | Não | O número máximo de solicitações simultâneas que você pode enviar para inferência de modelo para o Luma Ray V2. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo sob demanda por minuto para o AI21 Labs Jamba 1.5 Large | Cada região compatível: 100 | Não | O número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o AI21 Labs Jamba 1.5 Large. A cota considera a soma combinada de solicitações para Converse e InvokeModel |
Solicitações de inferência de modelo sob demanda por minuto para o AI21 Labs Jamba 1.5 Mini | Cada região compatível: 100 | Não | O número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o AI21 Labs Jamba 1.5 Mini. A cota considera a soma combinada de solicitações para Converse e InvokeModel |
Solicitações de inferência de modelo sob demanda por minuto para o AI21 Labs Jamba Instruct | Cada região compatível: 100 | Não | O número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o AI21 Labs Jamba Instruct. A cota considera a soma combinada de solicitações para Converse e InvokeModel |
Solicitações de inferência de modelo sob demanda por minuto para o AI21 Labs Jurassic-2 Mid | Cada região compatível: 400 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para o AI21 Labs Jurassic-2 Mid |
Solicitações de inferência de modelo sob demanda por minuto para o AI21 Labs Jurassic-2 Ultra | Cada região compatível: 100 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para o AI21 Labs Jurassic-2 Ultra |
Solicitações de inferência de modelos sob demanda por minuto para o Amazon Nova Canvas | Cada região compatível: 100 | Não | O número máximo de solicitações que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Canvas. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelos sob demanda por minuto para o Amazon Nova Lite |
us-east-1: 1.000 eu-west-2: 1.000 Cada uma das outras regiões compatíveis: 100 |
Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Lite. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelos sob demanda por minuto para o Amazon Nova Micro |
us-east-1: 1.000 eu-west-2: 1.000 Cada uma das outras regiões compatíveis: 100 |
Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Micro. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelos sob demanda por minuto para o Amazon Nova Pro |
ap-southeast-2:50 ca-central-1:50 Cada uma das outras regiões compatíveis: 100 |
Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Pro. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelos sob demanda por minuto para o Amazon Rerank 1.0 | Cada região compatível: 200 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Amazon Rerank 1.0. |
Solicitações de inferência de modelo sob demanda por minuto para o Amazon Titan Image Generator G1 | Cada região compatível: 60 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Amazon Titan Image Generator G1. |
Solicitações de inferência de modelo sob demanda por minuto para o Amazon Titan Image Generator G1 V2 | Cada região compatível: 60 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Titan Image Generator G1 V2. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo sob demanda por minuto para Amazon Titan Multimodal Embeddings G1 | Cada região compatível: 2.000 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Amazon Titan Multimodal Embeddings G1. |
Solicitações de inferência de modelos sob demanda por minuto para Amazon Titan Text Embeddings | Cada região compatível: 2.000 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para Amazon Titan Text Embeddings |
Solicitações de inferência de modelos sob demanda por minuto para Amazon Titan Text Embeddings V2 | Cada região compatível: 2.000 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Amazon Titan Text Embeddings V2 |
Solicitações de inferência de modelos sob demanda por minuto para o Amazon Titan Text Express | Cada região compatível: 400 | Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e para InvokeModelWithResponseStream Amazon Titan Text Express |
Solicitações de inferência de modelo sob demanda por minuto para o Amazon Titan Text Lite | Cada região compatível: 800 | Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e para InvokeModelWithResponseStream Amazon Titan Text Lite |
Solicitações de inferência de modelos sob demanda por minuto para o Amazon Titan Text Premier | Cada região compatível: 100 | Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e para InvokeModelWithResponseStream Amazon Titan Text Premier |
Solicitações de inferência de modelos sob demanda por minuto para Anthropic Claude 3 Haiku |
us-east-1: 1.000 us-west-2: 1.000 ap-northeast-1:200 ap-southeast-1:200 Cada uma das outras regiões suportadas: 400 |
Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Anthropic Claude 3 Haiku. |
Solicitações de inferência de modelo sob demanda por minuto para Anthropic Claude 3 Opus | Cada região compatível: 50 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3 Opus. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo sob demanda por minuto para o Anthropic Claude 3 Sonnet |
us-east-1: 500 us-west-2: 500 Cada uma das outras regiões compatíveis: 100 |
Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Anthropic Claude 3 Sonnet. |
Solicitações de inferência de modelos sob demanda por minuto para Anthropic Claude 3.5 Haiku |
us-west-1:400 Cada uma das outras regiões compatíveis: 1.000 |
Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.5 Haiku. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo sob demanda por minuto para o Anthropic Claude 3.5 Sonnet |
us-east-1:50 us-east-2:50 us-west-2:250 ap-northeast-2:50 ap-south-1:50 ap-southeast-2:50 Cada uma das outras regiões compatíveis: 20 |
Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto para o Anthropic Claude 3.5 Sonnet. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo sob demanda por minuto para o Anthropic Claude 3.5 Sonnet V2 |
us-west-2:250 Cada uma das outras regiões compatíveis: 50 |
Não | O número máximo de vezes que você pode chamar a inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet V2. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo sob demanda por minuto para o Anthropic Claude 3.7 Sonnet V1 | Cada região compatível: 125 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.7 Sonnet V1. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelos sob demanda por minuto para Anthropic Claude Instant |
us-east-1: 1.000 us-west-2: 1.000 Cada uma das outras regiões suportadas: 400 |
Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Anthropic Claude Instant |
Solicitações de inferência de modelo sob demanda por minuto para Anthropic Claude V2 |
us-east-1: 500 us-west-2: 500 Cada uma das outras regiões compatíveis: 100 |
Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Anthropic Claude V2 |
Solicitações de inferência de modelos sob demanda por minuto para o Cohere Command | Cada região compatível: 400 | Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Cohere Command. |
Solicitações de inferência de modelos sob demanda por minuto para Cohere Command Light | Cada região compatível: 800 | Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Cohere Command Light. |
Solicitações de inferência de modelo sob demanda por minuto para o Cohere Command R | Cada região compatível: 400 | Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Cohere Command R 128k. |
Solicitações de inferência de modelos sob demanda por minuto para o Cohere Command R Plus | Cada região compatível: 400 | Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Cohere Command R Plus 128k. |
Solicitações de inferência de modelos sob demanda por minuto para o Cohere Embed English | Cada região compatível: 2.000 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Cohere Embed English. |
Solicitações de inferência de modelos sob demanda por minuto para o Cohere Embed Multilingual | Cada região compatível: 2.000 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Cohere Embed Multilingual. |
Solicitações de inferência de modelos sob demanda por minuto para o Cohere Rerank 3.5 | Cada região compatível: 250 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Cohere Rerank 3.5. |
Solicitações de inferência de modelo sob demanda por minuto para Meta Llama 2 13B | Cada região compatível: 800 | Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Meta Llama 2 13B. |
Solicitações de inferência de modelo sob demanda por minuto para Meta Llama 2 70B | Cada região compatível: 400 | Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Meta Llama 2 70B. |
Solicitações de inferência de modelo sob demanda por minuto para Meta Llama 2 Chat 13B | Cada região compatível: 800 | Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Meta Llama 2 Chat 13B. |
Solicitações de inferência de modelo sob demanda por minuto para Meta Llama 2 Chat 70B | Cada região compatível: 400 | Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Meta Llama 2 Chat 70B. |
Solicitações de inferência de modelo sob demanda por minuto para Meta Llama 3 70B Instruct | Cada região compatível: 400 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3 70B Instruct. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo sob demanda por minuto para Meta Llama 3 8B Instruct | Cada região compatível: 800 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3 8B Instruct. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3.1 405B Instruct | Cada região compatível: 200 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 405B Instruct. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3.1 70B Instruct | Cada região compatível: 400 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 70B Instruct. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3.1 8B Instruct | Cada região compatível: 800 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 8B Instruct. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3.2 11B Instruct | Cada região compatível: 400 | Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto para o Meta Llama 3.2 11B Instruct. A cota considera a soma combinada das solicitações de InvokeModel, InvokeModelWithResponseStream, Converse e. ConverseStream |
Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3.2 1B Instruct | Cada região compatível: 800 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 1B Instruct. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3.2 3B Instruct | Cada região compatível: 800 | Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto para o Meta Llama 3.2 3B Instruct. A cota considera a soma combinada das solicitações de InvokeModel, InvokeModelWithResponseStream, Converse e. ConverseStream |
Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3.2 90B Instruct | Cada região compatível: 400 | Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto para o Meta Llama 3.2 90B Instruct. A cota considera a soma combinada das solicitações de InvokeModel, InvokeModelWithResponseStream, Converse e. ConverseStream |
Solicitações de inferência de modelo sob demanda por minuto para o Meta Llama 3.3 70B Instruct | Cada região compatível: 400 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.3 70B Instruct. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo sob demanda por minuto para o Mistral 7B Instruct | Cada região compatível: 800 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para Mistral mistral-7 0 b-instruct-v |
Solicitações de inferência de modelo sob demanda por minuto para Mistral AI Mistral Small | Cada região compatível: 400 | Não | O número máximo de vezes que você pode ligar InvokeModel e InvokeModelWithResponseStream em um minuto para Mistral AI Mistral Small |
Solicitações de inferência de modelo sob demanda por minuto para Mistral Large | Cada região compatível: 400 | Não | O número máximo de vezes que você pode ligar InvokeModel e InvokeModelWithResponseStream em um minuto para Mistral mistral-large-2402-v1 |
Solicitações de inferência de modelo sob demanda por minuto para Mistral Large 2407 | Cada região compatível: 400 | Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto para o Mistral Large 2407. A cota considera a soma combinada das solicitações de InvokeModel, InvokeModelWithResponseStream, Converse e ConverseStream |
Solicitações de inferência de modelo sob demanda por minuto para Mistral Mixtral 8x7b Instruct | Cada região compatível: 400 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para Mistral mixtral-8x7b-v0 |
Solicitações de inferência de modelo sob demanda por minuto para OpenAI GPT OSS 120B | Cada região compatível: 250 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o OpenAI GPT OSS 120B. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo sob demanda por minuto para OpenAI GPT OSS 20B | Cada região compatível: 250 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o OpenAI GPT OSS 20B. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Solicitações de inferência de modelo sob demanda por minuto para Stability.ai Stable Diffusion 3 Large | Cada região compatível: 15 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Stability.ai Stable Diffusion 3 Large. |
Solicitações de inferência de modelo sob demanda por minuto para Stability.ai Stable Diffusion 3 Medium | Cada região compatível: 60 | Não | O número máximo de vezes que você pode chamar InvokeModel em um minuto para o Stability.ai Stable Diffusion 3 Medium |
Solicitações de inferência de modelo sob demanda por minuto para Stability.ai Stable Diffusion 3.5 Large | Cada região compatível: 15 | Não | O número máximo de vezes que você pode ligar InvokeModel em um minuto para o Stability.ai Stable Diffusion 3.5 Large. |
Solicitações de inferência de modelo sob demanda por minuto para Stability.ai Stable Diffusion XL 0.8 | Cada região compatível: 60 | Não | O número máximo de vezes que você pode chamar InvokeModel em um minuto para o Stability.ai Stable Diffusion XL 0.8 |
Solicitações de inferência de modelo sob demanda por minuto para Stability.ai Stable Diffusion XL 1.0 | Cada região compatível: 60 | Não | O número máximo de vezes que você pode chamar InvokeModel em um minuto para o Stability.ai Stable Diffusion XL 1.0 |
Solicitações de inferência de modelo sob demanda por minuto para o Stability.ai Stable Image Core | Cada região compatível: 90 | Não | O número máximo de vezes que você pode chamar InvokeModel em um minuto para o Stability.ai Stable Image Core. |
Solicitações de inferência de modelo sob demanda por minuto para Stability.ai Stable Image Ultra | Cada região com suporte: 10 | Não | O número máximo de vezes que você pode chamar InvokeModel em um minuto para o Stability.ai Stable Image Ultra. |
Solicitações de inferência de modelos sob demanda por minuto para o Twelve Labs Pegasus | Cada região compatível: 60 | Não | O número máximo de solicitações sob demanda que você pode enviar para inferência de modelo em um minuto para o Twelve Labs Pegasus. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo sob demanda por minuto para o AI21 Labs Jamba 1.5 Large | Cada região compatível: 300.000 | Não | O número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o AI21 Labs Jamba 1.5 Large. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações à Converse e. InvokeModel |
Tokens de inferência de modelo sob demanda por minuto para o AI21 Labs Jamba 1.5 Mini | Cada região compatível: 300.000 | Não | O número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o AI21 Labs Jamba 1.5 Mini. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações à Converse e. InvokeModel |
Tokens de inferência de modelo sob demanda por minuto para o AI21 Labs Jamba Instruct | Cada região compatível: 300.000 | Não | O número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o AI21 Labs Jamba Instruct. A cota considera a soma combinada de tokens para Converse e InvokeModel |
Tokens de inferência de modelo sob demanda por minuto para AI21 Labs Jurassic-2 Mid | Cada região compatível: 300.000 | Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para AI21 Labs Jurassic-2 Mid. |
Tokens de inferência de modelo sob demanda por minuto para o AI21 Labs Jurassic-2 Ultra | Cada região compatível: 300.000 | Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para AI21 Labs Jurassic-2 Ultra. |
Tokens de inferência de modelo sob demanda por minuto para o Amazon Nova Lite |
us-east-1:2.000.000 eu-west-2:2.000.000 Cada uma das outras regiões compatíveis: 100.000 |
Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Lite. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo sob demanda por minuto para Amazon Nova Micro |
us-east-1:2.000.000 eu-west-2:2.000.000 Cada uma das outras regiões compatíveis: 100.000 |
Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Micro. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo sob demanda por minuto para o Amazon Nova Pro |
ap-southeast-2:100.000 ca-central-1:100.000 Cada uma das outras regiões suportadas: 400.000 |
Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Nova Pro. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo sob demanda por minuto para o Amazon Titan Image Generator G1 | Cada região compatível: 2.000 | Não | O número máximo de tokens que você pode fornecer InvokeModel em um minuto para o Amazon Titan Image Generator G1. |
Tokens de inferência de modelo sob demanda por minuto para o Amazon Titan Image Generator G1 V2 | Cada região compatível: 2.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Amazon Titan Image Generator G1 V2. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo sob demanda por minuto para Amazon Titan Multimodal Embeddings G1 | Cada região compatível: 300.000 | Não | O número máximo de tokens que você pode fornecer InvokeModel em um minuto para o Amazon Titan Multimodal Embeddings G1. |
Tokens de inferência de modelo sob demanda por minuto para Amazon Titan Text Embeddings | Cada região compatível: 300.000 | Não | O número máximo de tokens que você pode fornecer InvokeModel em um minuto para Amazon Titan Text Embeddings. |
Tokens de inferência de modelo sob demanda por minuto para Amazon Titan Text Embeddings V2 | Cada região compatível: 300.000 | Não | O número máximo de tokens que você pode fornecer InvokeModel em um minuto para o Amazon Titan Text Embeddings V2. |
Tokens de inferência de modelo sob demanda por minuto para o Amazon Titan Text Express | Cada região compatível: 300.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e para o InvokeModelWithResponseStream Amazon Titan Text Express. ConverseStream |
Tokens de inferência de modelo sob demanda por minuto para Amazon Titan Text Lite | Cada região compatível: 300.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e para o InvokeModelWithResponseStream Amazon Titan Text Lite. ConverseStream |
Tokens de inferência de modelo sob demanda por minuto para Amazon Titan Text Premier | Cada região compatível: 300.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e para o InvokeModelWithResponseStream Amazon Titan Text Premier. ConverseStream |
Tokens de inferência de modelo sob demanda por minuto para Anthropic Claude 3 Haiku |
us-east-1:2.000.000 us-west-2:2.000.000 ap-northeast-1:200.000 ap-southeast-1 ap-southeast-1:200.000 Cada uma das outras regiões suportadas: 300.000 |
Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações à Converse InvokeModel e à Anthropic Claude InvokeModelWithResponseStream 3 Haiku. ConverseStream |
Tokens de inferência de modelo sob demanda por minuto para Anthropic Claude 3 Opus | Cada região compatível: 400.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3 Opus. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo sob demanda por minuto para o Anthropic Claude 3 Sonnet |
us-east-1:1.000.000 us-west-2:1.000.000 Cada uma das outras regiões suportadas: 200.000 |
Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e InvokeModelWithResponseStream para o Anthropic Claude 3 Sonnet. ConverseStream |
Tokens de inferência de modelo sob demanda por minuto para Anthropic Claude 3.5 Haiku |
us-west-1:300.000 Cada uma das outras regiões suportadas: 2.000.000 |
Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.5 Haiku. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo sob demanda por minuto para Anthropic Claude 3.5 Sonnet |
us-east-1:400.000 us-east-2:400.000 us-west-2:2.000.000 ap-northeast-2:400.000 ap-south-1:400.000 ap-southeast-2:400.000 Cada uma das outras regiões suportadas: 200.000 |
Não | O número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo sob demanda por minuto para Anthropic Claude 3.5 Sonnet V2 |
us-west-2:2.000.000 Cada uma das outras regiões suportadas: 400.000 |
Não | O número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.5 Sonnet V2. A cota considera a soma combinada de Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo sob demanda por minuto para Anthropic Claude 3.7 Sonnet V1 | Cada região compatível: 500.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Anthropic Claude 3.7 Sonnet V1. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo sob demanda por minuto para Anthropic Claude Instant |
us-east-1:1.000.000 us-west-2:1.000.000 Cada uma das outras regiões suportadas: 300.000 |
Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações à Converse InvokeModel e à Anthropic ConverseStream Claude InvokeModelWithResponseStream Instant. |
Tokens de inferência de modelo sob demanda por minuto para Anthropic Claude V2 |
us-east-1: 500.000 us-west-2: 500.000 Cada uma das outras regiões suportadas: 200.000 |
Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e InvokeModelWithResponseStream para o Anthropic ConverseStream Claude V2. |
Tokens de inferência de modelo sob demanda por minuto para o Cohere Command | Cada região compatível: 300.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse InvokeModel e InvokeModelWithResponseStream para ConverseStream Cohere Command. |
Tokens de inferência de modelo sob demanda por minuto para Cohere Command Light | Cada região compatível: 300.000 | Não | O número máximo de vezes que você pode chamar a inferência do modelo em um minuto. A cota considera a soma combinada de Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Cohere Command Light. |
Tokens de inferência de modelo sob demanda por minuto para o Cohere Command R | Cada região compatível: 300.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e InvokeModelWithResponseStream para o ConverseStream Cohere Command R 128k. |
Tokens de inferência de modelo sob demanda por minuto para o Cohere Command R Plus | Cada região compatível: 300.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e InvokeModelWithResponseStream para o ConverseStream Cohere Command R Plus 128k. |
Tokens de inferência de modelo sob demanda por minuto para Cohere Embed English | Cada região compatível: 300.000 | Não | O número máximo de tokens que você pode fornecer InvokeModel em um minuto para o Cohere Embed English. |
Tokens de inferência de modelo sob demanda por minuto para Cohere Embed Multilingual | Cada região compatível: 300.000 | Não | O número máximo de tokens que você pode fornecer InvokeModel em um minuto para o Cohere Embed Multilingual. |
Tokens de inferência de modelo sob demanda por minuto para Meta Llama 2 13B | Cada região compatível: 300.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse, ConverseStream, InvokeModel e InvokeModelWithResponseStream para Meta Llama 2 13B. |
Tokens de inferência de modelo sob demanda por minuto para Meta Llama 2 70B | Cada região compatível: 300.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e InvokeModelWithResponseStream para o Meta Llama 2 70B. ConverseStream |
Tokens de inferência de modelo sob demanda por minuto para Meta Llama 2 Chat 13B | Cada região compatível: 300.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e InvokeModelWithResponseStream para o Meta Llama 2 Chat 13B. ConverseStream |
Tokens de inferência de modelo sob demanda por minuto para Meta Llama 2 Chat 70B | Cada região compatível: 300.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e InvokeModelWithResponseStream para o Meta Llama 2 Chat 70B. ConverseStream |
Tokens de inferência de modelo sob demanda por minuto para Meta Llama 3 70B Instruct | Cada região compatível: 300.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3 70B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo sob demanda por minuto para Meta Llama 3 8B Instruct | Cada região compatível: 300.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3 8B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo sob demanda por minuto para Meta Llama 3.1 405B Instruct | Cada região compatível: 400.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 405B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo sob demanda por minuto para Meta Llama 3.1 70B Instruct | Cada região compatível: 300.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 70B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo sob demanda por minuto para Meta Llama 3.1 8B Instruct | Cada região compatível: 300.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.1 8B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo sob demanda por minuto para Meta Llama 3.2 11B Instruct | Cada região compatível: 300.000 | Não | O número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 11B Instruct. A cota considera a soma combinada de tokens para InvokeModel, InvokeModelWithResponseStream, Converse e. ConverseStream |
Tokens de inferência de modelo sob demanda por minuto para Meta Llama 3.2 1B Instruct | Cada região compatível: 300.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 1B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo sob demanda por minuto para Meta Llama 3.2 3B Instruct | Cada região compatível: 300.000 | Não | O número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 3B Instruct. A cota considera a soma combinada de tokens para InvokeModel, InvokeModelWithResponseStream, Converse e. ConverseStream |
Tokens de inferência de modelo sob demanda por minuto para Meta Llama 3.2 90B Instruct | Cada região compatível: 300.000 | Não | O número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.2 90B Instruct. A cota considera a soma combinada de tokens para InvokeModel, InvokeModelWithResponseStream, Converse e. ConverseStream |
Tokens de inferência de modelo sob demanda por minuto para Meta Llama 3.3 70B Instruct | Cada região compatível: 300.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o Meta Llama 3.3 70B Instruct. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo sob demanda por minuto para Mistral AI Mistral 7B Instruct | Cada região compatível: 300.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse InvokeModel e para o Mistral AI Mistral InvokeModelWithResponseStream 7B Instruct. ConverseStream |
Tokens de inferência de modelo sob demanda por minuto para Mistral AI Mistral Large | Cada região compatível: 300.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse InvokeModel e InvokeModelWithResponseStream para Mistral ConverseStream AI Mistral Large. |
Tokens de inferência de modelo sob demanda por minuto para Mistral AI Mistral Small | Cada região compatível: 300.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada de tokens de entrada e saída em todas as solicitações para Converse InvokeModel e InvokeModelWithResponseStream para Mistral ConverseStream AI Mistral Small. |
Tokens de inferência de modelo sob demanda por minuto para Mistral AI Mixtral 8X7BB Instruct | Cada região compatível: 300.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para a Converse e para o Mistral AI ConverseStream Mixtral InvokeModel InvokeModelWithResponseStream 8X7B Instruct. |
Tokens de inferência de modelo sob demanda por minuto para Mistral Large 2407 | Cada região compatível: 300.000 | Não | O número máximo de tokens que você pode enviar para inferência de modelo em um minuto para o Mistral Large 2407. A cota considera a soma combinada de tokens para InvokeModel, InvokeModelWithResponseStream, Converse e ConverseStream |
Tokens de inferência de modelo sob demanda por minuto para OpenAI GPT OSS 120B | Cada região com suporte: 1.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o OpenAI GPT OSS 120B. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Tokens de inferência de modelo sob demanda por minuto para OpenAI GPT OSS 20B | Cada região com suporte: 1.000.000 | Não | O número máximo de tokens sob demanda que você pode enviar para inferência de modelo em um minuto para o OpenAI GPT OSS 20B. A cota considera a soma combinada dos tokens de entrada e saída em todas as solicitações para Converse ConverseStream, e. InvokeModel InvokeModelWithResponseStream |
Parâmetros por função | Cada região compatível: 5 | Sim |
O número máximo de parâmetros que você pode ter em uma função de grupo de ações. |
PrepareAgent solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de PrepareAgent API por segundo. |
Registros por trabalho de inferência em lote para o Amazon Nova Premier | Cada região compatível: 50.000 | Sim |
O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Amazon Nova Premier. |
Registros por trabalho de inferência em lote para Claude 3 Haiku | Cada região compatível: 50.000 | Sim |
O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Claude 3 Haiku. |
Registros por trabalho de inferência em lote para Claude 3 Opus | Cada região compatível: 50.000 | Sim |
O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Claude 3 Opus. |
Trabalho de inferência de registros por lote para Claude 3 Sonnet | Cada região compatível: 50.000 | Sim |
O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3 Sonnet. |
Registros por trabalho de inferência em lote para Claude 3.5 Haiku | Cada região compatível: 50.000 | Sim |
O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Claude 3.5 Haiku. |
Trabalho de inferência de registros por lote para Claude 3.5 Sonnet | Cada região compatível: 50.000 | Sim |
O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.5 Sonnet. |
Registros por tarefa de inferência em lote para Claude 3.5 Sonnet v2 | Cada região compatível: 50.000 | Sim |
O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Claude 3.5 Sonnet v2. |
Registros por trabalho de inferência de lote para o Llama 3.1 405B Instruct | Cada região compatível: 50.000 | Sim |
O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.1 405B Instruct. |
Registros por trabalho de inferência em lote para o Llama 3.1 70B Instruct | Cada região compatível: 50.000 | Sim |
O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.1 70B Instruct. |
Registros por trabalho de inferência em lote para o Llama 3.1 8B Instruct | Cada região compatível: 50.000 | Sim |
O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.1 8B Instruct. |
Registros por trabalho de inferência em lote para o Llama 3.2 11B Instruct | Cada região compatível: 50.000 | Sim |
O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 11B Instruct. |
Registros por trabalho de inferência em lote para o Llama 3.2 1B Instruct | Cada região compatível: 50.000 | Sim |
O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote Llama 3.2 1B Instruct. |
Registros por trabalho de inferência em lote para o Llama 3.2 3B Instruct | Cada região compatível: 50.000 | Sim |
O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 3B Instruct. |
Registros por trabalho de inferência em lote para o Llama 3.2 90B Instruct | Cada região compatível: 50.000 | Sim |
O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.2 90B Instruct. |
Registros por trabalho de inferência em lote para o Llama 3.3 70B Instruct | Cada região compatível: 50.000 | Sim |
O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 3.3 70B Instruct. |
Registros por trabalho de inferência em lote para o Llama 4 Maverick | Cada região compatível: 50.000 | Sim |
O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 4 Maverick. |
Registros por trabalho de inferência em lote para o Llama 4 Scout | Cada região compatível: 50.000 | Sim |
O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Llama 4 Scout. |
Registros por trabalho de inferência em lote para Mistral Large 2 (24.07) | Cada região compatível: 50.000 | Sim |
O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para Mistral Large 2 (24,07). |
Registros por trabalho de inferência em lote para Mistral Small | Cada região compatível: 50.000 | Sim |
O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Mistral Small. |
Registros por trabalho de inferência em lote para Nova Lite V1 | Cada região compatível: 50.000 | Sim |
O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova Lite V1. |
Registros por trabalho de inferência em lote para Nova Micro V1 | Cada região compatível: 50.000 | Sim |
O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova Micro V1. |
Registros por trabalho de inferência em lote para o Nova Pro V1 | Cada região compatível: 50.000 | Sim |
O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Nova Pro V1. |
Registros por trabalho de inferência em lote para Titan Multimodal Embeddings G1 | Cada região compatível: 50.000 | Sim |
O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Titan Multimodal Embeddings G1. |
Registros por trabalho de inferência em lote para Titan Text Embeddings V2 | Cada região compatível: 50.000 | Sim |
O número máximo de registros em todos os arquivos de entrada em um trabalho de inferência em lote para o Titan Text Embeddings V2. |
Registros por arquivo de entrada por trabalho de inferência em lote para o Amazon Nova Premier | Cada região compatível: 50.000 | Sim |
O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Amazon Nova Premier. |
Registros por arquivo de entrada por trabalho de inferência em lote para Claude 3 Haiku | Cada região compatível: 50.000 | Sim |
O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Claude 3 Haiku. |
Registros por arquivo de entrada por trabalho de inferência em lote para Claude 3 Opus | Cada região compatível: 50.000 | Sim |
O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Claude 3 Opus. |
Registros por arquivo de entrada por trabalho de inferência em lote para Claude 3 Sonnet | Cada região compatível: 50.000 | Sim |
O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude 3 Sonnet. |
Registros por arquivo de entrada por trabalho de inferência em lote para Claude 3.5 Haiku | Cada região compatível: 50.000 | Sim |
O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Claude 3.5 Haiku. |
Registros por arquivo de entrada por trabalho de inferência em lote para Claude 3.5 Sonnet | Cada região compatível: 50.000 | Sim |
O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Claude 3.5 Sonnet. |
Registros por arquivo de entrada por trabalho de inferência em lote para Claude 3.5 Sonnet v2 | Cada região compatível: 50.000 | Sim |
O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Claude 3.5 Sonnet v2. |
Registros por arquivo de entrada por trabalho de inferência em lote para Llama 3.1 405B Instruct | Cada região compatível: 50.000 | Sim |
O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.1 405B Instruct. |
Registros por arquivo de entrada por trabalho de inferência em lote para Llama 3.1 70B Instruct | Cada região compatível: 50.000 | Sim |
O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.1 70B Instruct. |
Registros por arquivo de entrada por trabalho de inferência em lote para Llama 3.1 8B Instruct | Cada região compatível: 50.000 | Sim |
O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.1 8B Instruct. |
Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 3.2 11B Instruct | Cada região compatível: 50.000 | Sim |
O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.2 11B Instruct. |
Registros por arquivo de entrada por tarefa de inferência em lote para o Llama 3.2 1B Instruct | Cada região compatível: 50.000 | Sim |
O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote Llama 3.2 1B Instruct. |
Registros por arquivo de entrada por trabalho de inferência em lote para o Llama 3.2 3B Instruct | Cada região compatível: 50.000 | Sim |
O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.2 3B Instruct. |
Registros por arquivo de entrada por tarefa de inferência em lote para o Llama 3.2 90B Instruct | Cada região compatível: 50.000 | Sim |
O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.2 90B Instruct. |
Registros por arquivo de entrada por trabalho de inferência em lote para Llama 3.3 70B Instruct | Cada região compatível: 50.000 | Sim |
O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 3.3 70B Instruct. |
Registros por arquivo de entrada por trabalho de inferência em lote para Llama 4 Maverick | Cada região compatível: 50.000 | Sim |
O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 4 Maverick. |
Registros por arquivo de entrada por trabalho de inferência em lote para Llama 4 Scout | Cada região compatível: 50.000 | Sim |
O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Llama 4 Scout. |
Registros por arquivo de entrada por trabalho de inferência em lote para Mistral Large 2 (24.07) | Cada região compatível: 50.000 | Sim |
O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Mistral Large 2 (24.07). |
Registros por arquivo de entrada por trabalho de inferência em lote para Mistral Small | Cada região compatível: 50.000 | Sim |
O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Mistral Small. |
Registros por arquivo de entrada por trabalho de inferência em lote para o Nova Lite V1 | Cada região compatível: 50.000 | Sim |
O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Nova Lite V1. |
Registros por arquivo de entrada por trabalho de inferência em lote para Nova Micro V1 | Cada região compatível: 50.000 | Sim |
O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Nova Micro V1. |
Registros por arquivo de entrada por trabalho de inferência em lote para o Nova Pro V1 | Cada região compatível: 50.000 | Sim |
O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Nova Pro V1. |
Registros por arquivo de entrada por trabalho de inferência em lote para Titan Multimodal Embeddings G1 | Cada região compatível: 50.000 | Sim |
O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para o Titan Multimodal Embeddings G1. |
Registros por arquivo de entrada por trabalho de inferência em lote para Titan Text Embeddings V2 | Cada região compatível: 50.000 | Sim |
O número máximo de registros em um arquivo de entrada em um trabalho de inferência em lote para Titan Text Embeddings V2. |
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Amazon Nova Premier | Cada região compatível: 20 | Sim |
O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Amazon Nova Premier. |
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Claude 3 Haiku | Cada região compatível: 20 | Sim |
O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Claude 3 Haiku. |
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Claude 3 Opus | Cada região compatível: 20 | Sim |
O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Claude 3 Opus. |
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Claude 3 Sonnet | Cada região compatível: 20 | Sim |
O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Claude 3 Sonnet. |
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Claude 3.5 Haiku | Cada região compatível: 20 | Sim |
O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Claude 3.5 Haiku. |
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Claude 3.5 Sonnet | Cada região compatível: 20 | Sim |
O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Claude 3.5 Sonnet. |
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Claude 3.5 Sonnet v2 | Cada região compatível: 20 | Sim |
O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Claude 3.5 Sonnet v2. |
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Llama 3.1 405B Instruct | Cada região compatível: 20 | Sim |
O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Llama 3.1 405B Instruct. |
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Llama 3.1 70B Instruct | Cada região compatível: 20 | Sim |
O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Llama 3.1 70B Instruct. |
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Llama 3.1 8B Instruct | Cada região compatível: 20 | Sim |
O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Llama 3.1 8B Instruct. |
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Llama 3.2 11B Instruct | Cada região compatível: 20 | Sim |
O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Llama 3.2 11B Instruct. |
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Llama 3.2 1B Instruct | Cada região compatível: 20 | Sim |
O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Llama 3.2 1B Instruct. |
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Llama 3.2 3B Instruct | Cada região compatível: 20 | Sim |
O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Llama 3.2 3B Instruct. |
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Llama 3.2 90B Instruct | Cada região compatível: 20 | Sim |
O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Llama 3.2 90B Instruct. |
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Llama 3.3 70B Instruct | Cada região compatível: 20 | Sim |
O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Llama 3.3 70B Instruct. |
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Llama 4 Maverick | Cada região compatível: 20 | Sim |
O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Llama 4 Maverick. |
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Llama 4 Scout | Cada região compatível: 20 | Sim |
O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Llama 4 Scout. |
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para Mistral Large 2 (24.07) | Cada região compatível: 20 | Sim |
O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Mistral Large 2 (24,07). |
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Mistral Small | Cada região compatível: 20 | Sim |
O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Mistral Small. |
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Nova Lite V1 | Cada região compatível: 20 | Sim |
O número máximo de trabalhos de inferência em lote enviados e em andamento usando um modelo básico para o Nova Lite V1. |
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Nova Micro V1 | Cada região compatível: 20 | Sim |
O número máximo de trabalhos de inferência em lote enviados e em andamento usando um modelo básico para o Nova Micro V1. |
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Nova Pro V1 | Cada região compatível: 20 | Sim |
O número máximo de trabalhos de inferência em lote enviados e em andamento usando um modelo básico para o Nova Pro V1. |
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Titan Multimodal Embeddings G1 | Cada região compatível: 20 | Sim |
O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Titan Multimodal Embeddings G1. |
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Titan Text Embeddings V2 | Cada região compatível: 20 | Sim |
O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo básico para o Titan Text Embeddings V2. |
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo personalizado para o Titan Multimodal Embeddings G1 | Cada região compatível: 3 | Não | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo personalizado para o Titan Multimodal Embeddings G1. |
Soma dos trabalhos de inferência em lote em andamento e enviados usando um modelo personalizado para o Titan Text Embeddings V2 | Cada região compatível: 3 | Não | O número máximo de trabalhos de inferência em lote em andamento e enviados usando um modelo personalizado para Titan Text Embeddings V2 |
Limite de taxa de aceleração para o Bedrock Data Automation Runtime: ListTagsForResource | Cada região compatível: 25 por segundo | Não | O número máximo de Bedrock Data Automation Runtime: ListTagsForResource solicitações que você pode fazer por segundo por conta, na região atual |
Limite de taxa de aceleração para o Bedrock Data Automation Runtime: TagResource | Cada região compatível: 25 por segundo | Não | O número máximo de Bedrock Data Automation Runtime: TagResource solicitações que você pode fazer por segundo por conta, na região atual |
Limite de taxa de aceleração para o Bedrock Data Automation Runtime: UntagResource | Cada região compatível: 25 por segundo | Não | O número máximo de Bedrock Data Automation Runtime: UntagResource solicitações que você pode fazer por segundo por conta, na região atual |
Limite de taxa de aceleração para Bedrock Data Automation: ListTagsForResource | Cada região compatível: 25 por segundo | Não | O número máximo de Bedrock Data Automation: ListTagsForResource solicitações que você pode fazer por segundo por conta, na região atual |
Limite de taxa de aceleração para Bedrock Data Automation: TagResource | Cada região compatível: 25 por segundo | Não | O número máximo de Bedrock Data Automation: TagResource solicitações que você pode fazer por segundo por conta, na região atual |
Limite de taxa de aceleração para Bedrock Data Automation: UntagResource | Cada região compatível: 25 por segundo | Não | O número máximo de Bedrock Data Automation: UntagResource solicitações que você pode fazer por segundo por conta, na região atual |
Limite de taxa de aceleração para CreateBlueprint | Cada região compatível: 5 por segundo | Não | O número máximo de CreateBlueprint solicitações que você pode fazer por segundo por conta, na região atual |
Limite de taxa de aceleração para CreateBlueprintVersion | Cada região compatível: 5 por segundo | Não | O número máximo de CreateBlueprintVersion solicitações que você pode fazer por segundo por conta, na região atual |
Limite de taxa de aceleração para CreateDataAutomationProject | Cada região compatível: 5 por segundo | Não | O número máximo de CreateDataAutomationProject solicitações que você pode fazer por segundo por conta, na região atual |
Limite de taxa de aceleração para DeleteBlueprint | Cada região compatível: 5 por segundo | Não | O número máximo de DeleteBlueprint solicitações que você pode fazer por segundo por conta, na região atual |
Limite de taxa de aceleração para DeleteDataAutomationProject | Cada região compatível: 5 por segundo | Não | O número máximo de DeleteDataAutomationProject solicitações que você pode fazer por segundo por conta, na região atual |
Limite de taxa de aceleração para GetBlueprint | Cada região compatível: 5 por segundo | Não | O número máximo de GetBlueprint solicitações que você pode fazer por segundo por conta, na região atual |
Limite de taxa de aceleração para GetDataAutomationProject | Cada região compatível: 5 por segundo | Não | O número máximo de GetDataAutomationProject solicitações que você pode fazer por segundo por conta, na região atual |
Limite de taxa de aceleração para GetDataAutomationStatus | Cada região compatível: 10 por segundo | Não | O número máximo de GetDataAutomationStatus solicitações que você pode fazer por segundo por conta, na região atual |
Limite de taxa de aceleração para InvokeDataAutomationAsync | Cada região compatível: 10 por segundo | Não | O número máximo de InvokeDataAutomationAsync solicitações que você pode fazer por segundo por conta, na região atual |
Limite de taxa de aceleração para ListBlueprints | Cada região compatível: 5 por segundo | Não | O número máximo de ListBlueprints solicitações que você pode fazer por segundo por conta, na região atual |
Limite de taxa de aceleração para ListDataAutomationProjects | Cada região compatível: 5 por segundo | Não | O número máximo de ListDataAutomationProjects solicitações que você pode fazer por segundo por conta, na região atual |
Limite de taxa de aceleração para UpdateBlueprint | Cada região compatível: 5 por segundo | Não | O número máximo de UpdateBlueprint solicitações que você pode fazer por segundo por conta, na região atual |
Limite de taxa de aceleração para UpdateDataAutomationProject | Cada região compatível: 5 por segundo | Não | O número máximo de UpdateDataAutomationProject solicitações que você pode fazer por segundo por conta, na região atual |
UpdateAgent solicitações por segundo | Cada região compatível: 4 | Não | O número máximo de solicitações de UpdateAgent API por segundo. |
UpdateAgentActionGroup solicitações por segundo | Cada região compatível: 6 | Não | O número máximo de solicitações de UpdateAgentActionGroup API por segundo. |
UpdateAgentAlias solicitações por segundo | Cada região compatível: 2 | Não | O número máximo de solicitações de UpdateAgentAlias API por segundo. |
UpdateAgentKnowledgeBase solicitações por segundo | Cada região compatível: 4 | Não | O número máximo de solicitações de UpdateAgentKnowledgeBase API por segundo. |
nota
É possível solicitar um aumento de cotas para sua conta seguindo as etapas abaixo:
-
Se uma cota estiver marcada como Sim, você poderá ajustá-la seguindo as etapas em Solicitando um aumento de cota no Guia do Usuário de Quotas de Serviço.
-
Se uma cota estiver marcada como Não, você poderá enviar uma solicitação por meio do formulário de aumento de limite
para ser considerado para um aumento. -
Para qualquer modelo, você pode solicitar um aumento para as seguintes cotas em conjunto:
-
InvokeModel Tokens entre regiões por minuto para
${model}
-
InvokeModel Solicitações entre regiões por minuto para
${model}
-
InvokeModel Tokens sob demanda por minuto para
${model}
-
InvokeModel Solicitações sob demanda por minuto para
${model}
Para solicitar um aumento para qualquer combinação dessas cotas, solicite um aumento para os InvokeModel tokens entre regiões por minuto para a
${model}
cota seguindo as etapas em Solicitando um aumento de cota no Guia do usuário de cotas de serviço. Depois de fazer isso, a equipe de suporte entrará em contato e oferecerá a opção de também aumentar as outras três cotas. Devido à extraordinária demanda, a prioridade será dada aos clientes que geram tráfego que consome sua alocação de cota existente. Sua solicitação poderá ser negada se você não atender a essa condição. -