Inferencia bajo demanda sobre modelos personalizados - Amazon Nova

Inferencia bajo demanda sobre modelos personalizados

La inferencia bajo demanda (OD) le permite ejecutar inferencias en sus modelos personalizados de Amazon Nova sin mantener los puntos de conexión de rendimiento aprovisionados. Esto ayuda a optimizar los costos y a escalar de manera eficiente. Con la inferencia bajo demanda, se cobra en función del uso, medido en tokens, tanto en entradas como en salidas.

Requisitos de compatibilidad

Se aplican los siguientes requisitos de compatibilidad:

  • La inferencia OD se admite para los modelos de comprensión personalizados Amazon Nova Pro, Lite y Micro. La inferencia OD no es compatible con los modelos de generación de contenido personalizados de Nova.

  • La inferencia OD es compatible con los modelos de comprensión personalizados de Amazon Nova entrenados después del 16 de julio de 2025. Los modelos personalizados entrenados antes del 16 de julio de 2025 no son compatibles con la inferencia OD.

  • Personalización de Amazon Bedrock: la inferencia OD es compatible con los modelos personalizados con la personalización de Amazon Bedrock y para los modelos aprendiz que se extrajeron de un modelo instructor con Amazon Bedrock.

  • Personalización de SageMaker AI: para los modelos personalizados en SageMaker AI, la inferencia OD solo es compatible con los modelos afinados con eficiencia de parámetros (PEFT) cuando el modelo está alojado en Amazon Bedrock. Esto incluye la optimización directa de preferencias más el PEFT. La inferencia OD no es compatible con los modelos de ajuste fino de rango completo.

Entrenamiento del modelo e inferencia

Cuando entrene un nuevo modelo Amazon Nova Pro, Lite o Micro personalizado en Amazon Bedrock o SageMaker AI mediante PEFT después del 16 de julio de 2025, dicho modelo será automáticamente compatible con las opciones de inferencia aprovisionadas y bajo demanda. Puede seleccionar el método de inferencia que prefiera durante la implementación del modelo.

Para utilizar la inferencia OD con un modelo entrenado después del 16 de julio de 2025, complete los siguientes pasos:

  1. Cree un nuevo trabajo de afinación con la API de personalización de Amazon Bedrock o la API de personalización de SageMaker AI.

  2. Implemente el modelo recién entrenado en Amazon Bedrock mediante la API de CreateCustomModel.

  3. Realice la implementación para realizar inferencias bajo demanda mediante la API de CustomModelDeployment.

Límites de frecuencia

Los siguientes límites de solicitudes por minuto (RPM) y de tokens por minuto (TPM) se aplican a las solicitudes de inferencia bajo demanda:

Base Model for Custom Model RPM per Custom Model Deployment TPM per Custom Model Deployment
Amazon Nova Micro 200 400,000
Amazon Nova Lite 200 400,000
Amazon Nova Pro 20 80,000

Para obtener más información acerca de las cuotas disponibles para Amazon Nova, consulte Cuotas para Amazon Nova.

Latencia

Puede esperar una diferencia de latencia de extremo a extremo (es decir, el tiempo transcurrido hasta el primer token [TTFT]) del 20 al 55 % entre la invocación del modelo base y el adaptador. El valor exacto de latencia varía según el tamaño del modelo y está en concordancia con los estándares del sector.