Inferenza su richiesta su modelli personalizzati - Amazon Nova

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Inferenza su richiesta su modelli personalizzati

L'inferenza on demand (OD) ti consente di eseguire inferenze sui tuoi modelli Amazon Nova personalizzati senza mantenere gli endpoint di throughput assegnati. Questo ti aiuta a ottimizzare i costi e a scalare in modo efficiente. Con l'inferenza su richiesta, i costi vengono addebitati in base all'utilizzo, misurato in token, sia in entrata che in uscita.

Requisiti di compatibilità

Si applicano i seguenti requisiti di compatibilità:

  • L'inferenza OD è supportata per i modelli di comprensione personalizzati di Amazon Nova Pro, Lite e Micro. L'inferenza OD non è supportata per i modelli di generazione di contenuti personalizzati Nova.

  • L'inferenza OD è supportata per i modelli di comprensione personalizzati di Amazon Nova addestrati dopo il 16 luglio 2025. I modelli personalizzati addestrati prima del 16 luglio 2025 non sono compatibili con l'inferenza OD.

  • Personalizzazione di Amazon Bedrock: l'inferenza OD è supportata per i modelli personalizzati con la personalizzazione di Amazon Bedrock e per i modelli di studenti che sono stati distillati da un modello di insegnante con Amazon Bedrock.

  • SageMaker Personalizzazione AI: per i modelli personalizzati nell' SageMaker intelligenza artificiale, l'inferenza OD è supportata solo per i modelli PEFT (Parameter-Efficient Fine-Tuned) quando il modello è ospitato su Amazon Bedrock. Ciò include Direct Preference Optimization e PEFT. L'inferenza OD non è supportata per i modelli Full Rank ottimizzati.

Addestramento e inferenza dei modelli

Quando addestra un nuovo modello Amazon Nova Pro, Lite o Micro personalizzato su Amazon Bedrock o SageMaker AI utilizzando PEFT dopo il 16 luglio 2025, il modello sarà automaticamente compatibile con le opzioni di inferenza fornite e su richiesta. Puoi selezionare il metodo di inferenza preferito quando distribuisci il modello.

Per utilizzare l'inferenza OD con un modello addestrato dopo il 16 luglio 2025, completa i seguenti passaggi:

Limiti di velocità

I seguenti limiti di richieste al minuto (RPM) e token al minuto (TPM) si applicano alle richieste di inferenza su richiesta:

Modello base per modello personalizzato RPM per implementazione del modello personalizzato TPM per implementazione di modelli personalizzati
Amazon NovaMicro 200 400.000
Amazon Nova Lite 200 400.000
Amazon Nova Pro 20 80.000

Per ulteriori informazioni sulle quote disponibili per Amazon Nova, consultaQuote per Amazon Nova.

Latenza

Puoi aspettarti una differenza di end-to-end latenza (ovvero Time To First Token (TTFT)) del 20-55% tra l'invocazione del modello base e l'adattatore. Il valore esatto di latenza varia in base alle dimensioni del modello ed è in linea con gli standard del settore.