Inférence à la demande sur des modèles personnalisés - Amazon Nova

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Inférence à la demande sur des modèles personnalisés

L'inférence à la demande (OD) vous permet d'exécuter des inférences sur vos modèles Amazon Nova personnalisés sans conserver les points de terminaison de débit provisionnés. Cela vous permet d'optimiser les coûts et d'évoluer efficacement. Avec l'inférence à la demande, vous êtes facturé en fonction de l'utilisation, mesurée en jetons, à la fois entrants et sortants.

Exigences en matière de compatibilité

Les exigences de compatibilité suivantes s'appliquent :

  • L'inférence OD est prise en charge pour les modèles de compréhension personnalisés Amazon Nova Pro, Lite et Micro. L'inférence OD n'est pas prise en charge pour les modèles de génération de contenu personnalisés Nova.

  • L'inférence OD est prise en charge pour les modèles de compréhension personnalisés Amazon Nova formés après le 16 juillet 2025. Les modèles personnalisés formés avant le 16 juillet 2025 ne sont pas compatibles avec l'inférence OD.

  • Personnalisation d'Amazon Bedrock : l'inférence OD est prise en charge pour les modèles personnalisés avec la personnalisation d'Amazon Bedrock et pour les modèles étudiants qui ont été élaborés à partir d'un modèle d'enseignant avec Amazon Bedrock.

  • SageMaker Personnalisation par l'IA : pour les modèles personnalisés en SageMaker IA, l'inférence OD n'est prise en charge que pour les modèles PEFT (Parameter-Efficient Finetuning) lorsque le modèle est hébergé sur Amazon Bedrock. Cela inclut l'optimisation directe des préférences et le format PEFT. L'inférence OD n'est pas prise en charge pour les modèles affinés à rang complet.

Entraînement et inférence des modèles

Lorsque vous entraînez un nouveau modèle Amazon Nova Pro, Lite ou Micro personnalisé sur Amazon Bedrock ou SageMaker AI à l'aide de PEFT après le 16 juillet 2025, le modèle sera automatiquement compatible avec les options d'inférence provisionnées et à la demande. Vous pouvez sélectionner votre méthode d'inférence préférée lorsque vous déployez votre modèle.

Pour utiliser l'inférence OD avec un modèle entraîné après le 16 juillet 2025, procédez comme suit :

  1. Créez une nouvelle tâche de réglage avec l'API de personnalisation Amazon Bedrock ou l'API de personnalisation SageMaker AI.

  2. Déployez le modèle nouvellement formé sur Amazon Bedrock à l'aide de l'CreateCustomModel API.

  3. Déployez pour une inférence à la demande à l'aide de l' CustomModelDeployment API.

Limites de taux

Les limites de demandes par minute (RPM) et de jetons par minute (TPM) suivantes s'appliquent aux demandes d'inférence à la demande :

Modèle de base pour modèle personnalisé RPM par déploiement de modèles personnalisés Déploiement du TPM par modèle personnalisé
Amazon Nova Micro 200 400 000
Amazon Nova Lite 200 400 000
Amazon Nova Pro 20 80 000

Pour en savoir plus sur les quotas disponibles pour Amazon Nova, consultezQuotas pour Amazon Nova.

Latence

Vous pouvez vous attendre à une différence de end-to-end latence (c'est-à-dire, Time To First Token (TTFT)) de 20 à 55 % entre l'invocation du modèle de base et l'adaptateur. La valeur de latence exacte varie en fonction de la taille du modèle et est conforme aux normes du secteur.