Inferência sob demanda em modelos personalizados - Amazon Nova

Inferência sob demanda em modelos personalizados

A inferência sob demanda (OD) permite que você execute inferência em seus modelos personalizados do Amazon Nova sem manter endpoints de throughput provisionados. Isso ajuda a otimizar custos e escalar com eficiência. Com inferência sob demanda, a cobrança é baseada no uso medido em tokens, tanto de entrada quanto de saída.

Requisitos de compatibilidade

Os seguintes requisitos de compatibilidade se aplicam:

  • A inferência OD é compatível com os modelos de compreensão personalizados do Amazon Nova Pro, Lite e Micro. A inferência OD não é compatível com os modelos de geração de conteúdo personalizados do Nova.

  • A inferência OD é compatível com os modelos de entendimento personalizados do Amazon Nova treinados depois de 16 de julho de 2025. Modelos personalizados treinados antes de 16 de julho de 2025 não são compatíveis com inferência OD.

  • Personalização do Amazon Bedrock: a inferência OD é compatível com modelos personalizados com a personalização do Amazon Bedrock e modelos aprendizes que foram destilados de um modelo instrutor com o Amazon Bedrock.

  • Personalização do SageMaker AI: para modelos personalizados no SageMaker AI, a inferência OD é compatível apenas com modelos ajustados com eficiência de parâmetros (PEFT) quando o modelo está hospedado no Amazon Bedrock. Isso inclui a Otimização Direta de Preferências e PEFT. A inferência OD não é compatível com modelos completamente ajustados.

Treinamento de modelo e inferência

Quando você treinar um novo modelo personalizado do Amazon Nova Pro, Lite ou Micro no Amazon Bedrock ou no SageMaker AI usando PEFT após 16 de julho de 2025, o modelo será automaticamente compatível com as opções de inferência provisionada e sob demanda. Você pode selecionar seu método de inferência preferido ao implantar o modelo.

Para usar a inferência OD com um modelo treinado após 16 de julho de 2025, conclua as seguintes etapas:

  1. Crie uma nova tarefa de ajuste com a API de personalização do Amazon Bedrock ou com a API de personalização do SageMaker AI.

  2. Implante o modelo recém-treinado no Amazon Bedrock usando a API CreateCustomModel.

  3. Implante para inferência sob demanda usando a API CustomModelDeployment.

Limites de taxa

Os seguintes limites de solicitações por minuto (RPM) e tokens por minuto (TPM) se aplicam às solicitações de inferência sob demanda:

Base Model for Custom Model RPM per Custom Model Deployment TPM per Custom Model Deployment
Amazon Nova Micro 200 400,000
Amazon Nova Lite 200 400,000
Amazon Nova Pro 20 80,000

Para saber mais sobre as cotas disponíveis para o Amazon Nova, consulte Cotas do Amazon Nova.

Latência

Você pode esperar uma diferença de latência de ponta a ponta (ou seja, tempo até o primeiro token (TTFT)) de 20% a 55% entre a invocação do modelo básico e o adaptador. O valor exato da latência varia de acordo com o tamanho do modelo e está dentro dos padrões do setor.