Opzioni di inferenza in Amazon SageMaker AI

SageMaker L'intelligenza artificiale offre diverse opzioni di inferenza in modo da poter scegliere l'opzione più adatta al tuo carico di lavoro:

Inferenza in tempo reale: l'inferenza in tempo reale è ideale per inferenze online che hanno requisiti di bassa latenza o di elevati di throughput. Utilizza l'inferenza in tempo reale per un endpoint persistente e completamente gestito (API REST) in grado di gestire un traffico sostenuto, supportato dal tipo di istanza che preferisci. L'inferenza in tempo reale può supportare carichi utili fino a 25 MB e tempi di elaborazione di 60 secondi per le risposte regolari e di 8 minuti per le risposte in streaming.
Inferenza senza server: l'inferenza serverless è ideale in presenza di schemi di traffico intermittenti o imprevedibili. SageMaker L'intelligenza artificiale gestisce tutta l'infrastruttura sottostante, quindi non è necessario gestire istanze o politiche di scalabilità. Verrà effettuato l'addebito solo per l'uso effettivo e non per il tempo di inattività. Può supportare payload di dimensioni fino a 4 MB e tempi di elaborazione fino a 60 secondi.
Trasformazione in batch: la trasformazione in batch è adatta per l'elaborazione offline quando sono disponibili in anticipo grandi quantità di dati e non è necessario un endpoint persistente. Inoltre puoi utilizzare la trasformazione in batch per la pre-elaborazione dei set di dati. Può supportare set di dati di grandi dimensioni e con tempi GBs di elaborazione di giorni.
Inferenza asincrona: l'inferenza asincrona è ideale quando si desidera mettere in coda le richieste e disporre di payload di grandi dimensioni con tempi di elaborazione lunghi. L'inferenza asincrona può supportare payload fino a 1 GB e tempi di elaborazione lunghi fino a un'ora. Inoltre puoi ridimensionare l'endpoint a 0 quando non ci sono richieste da elaborare.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Opzioni per distribuire modelli e ottenere inferenze

Opzioni endpoint avanzate