Exigences en matière de compatibilité Entraînement et inférence des modèles Limites de taux Latence

Inférence à la demande sur des modèles personnalisés

L'inférence à la demande (OD) vous permet d'exécuter des inférences sur vos modèles Amazon Nova personnalisés sans conserver les points de terminaison de débit provisionnés. Cela vous permet d'optimiser les coûts et d'évoluer efficacement. Avec l'inférence à la demande, vous êtes facturé en fonction de l'utilisation, mesurée en jetons, à la fois entrants et sortants.

Exigences en matière de compatibilité

Les exigences de compatibilité suivantes s'appliquent :

L'inférence OD est prise en charge pour les modèles de compréhension personnalisés Amazon Nova Pro, Lite et Micro. L'inférence OD n'est pas prise en charge pour les modèles de génération de contenu personnalisés Nova.
L'inférence OD est prise en charge pour les modèles de compréhension personnalisés Amazon Nova formés après le 16 juillet 2025. Les modèles personnalisés formés avant le 16 juillet 2025 ne sont pas compatibles avec l'inférence OD.
Personnalisation d'Amazon Bedrock : l'inférence OD est prise en charge pour les modèles personnalisés avec la personnalisation d'Amazon Bedrock et pour les modèles étudiants qui ont été élaborés à partir d'un modèle d'enseignant avec Amazon Bedrock.
SageMaker Personnalisation par l'IA : pour les modèles personnalisés en SageMaker IA, l'inférence OD n'est prise en charge que pour les modèles PEFT (Parameter-Efficient Finetuning) lorsque le modèle est hébergé sur Amazon Bedrock. Cela inclut l'optimisation directe des préférences et le format PEFT. L'inférence OD n'est pas prise en charge pour les modèles affinés à rang complet.

Entraînement et inférence des modèles

Lorsque vous entraînez un nouveau modèle Amazon Nova Pro, Lite ou Micro personnalisé sur Amazon Bedrock ou SageMaker AI à l'aide de PEFT après le 16 juillet 2025, le modèle sera automatiquement compatible avec les options d'inférence provisionnées et à la demande. Vous pouvez sélectionner votre méthode d'inférence préférée lorsque vous déployez votre modèle.

Pour utiliser l'inférence OD avec un modèle entraîné après le 16 juillet 2025, procédez comme suit :

Créez une nouvelle tâche de réglage avec l'API de personnalisation Amazon Bedrock ou l'API de personnalisation SageMaker AI.
Déployez le modèle nouvellement formé sur Amazon Bedrock à l'aide de l'CreateCustomModel API.
Déployez pour une inférence à la demande à l'aide de l' CustomModelDeployment API.

Limites de taux

Les limites de demandes par minute (RPM) et de jetons par minute (TPM) suivantes s'appliquent aux demandes d'inférence à la demande :

Modèle de base pour modèle personnalisé	RPM par déploiement de modèles personnalisés	Déploiement du TPM par modèle personnalisé
Amazon Nova Micro	200	400 000
Amazon Nova Lite	200	400 000
Amazon Nova Pro	20	80 000

Pour en savoir plus sur les quotas disponibles pour Amazon Nova, consultezQuotas pour Amazon Nova.

Latence

Vous pouvez vous attendre à une différence de end-to-end latence (c'est-à-dire, Time To First Token (TTFT)) de 20 à 55 % entre l'invocation du modèle de base et l'adaptateur. La valeur de latence exacte varie en fonction de la taille du modèle et est conforme aux normes du secteur.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Hyperparamètres pour les modèles de génération de contenu créatif

Distillation de modèles Amazon Nova