Implementa modelli per l'inferenza

Con Amazon SageMaker AI, puoi iniziare a ottenere previsioni o inferenze dai tuoi modelli di machine learning addestrati. SageMaker L'intelligenza artificiale offre un'ampia selezione di infrastrutture ML e opzioni di implementazione dei modelli per aiutarti a soddisfare tutte le tue esigenze di inferenza ML. Con SageMaker AI Inference, puoi scalare l'implementazione dei modelli, gestirli in modo più efficace in produzione e ridurre il carico operativo. SageMaker L'intelligenza artificiale offre varie opzioni di inferenza, come endpoint in tempo reale per ottenere inferenze a bassa latenza, endpoint serverless per un'infrastruttura completamente gestita e l'auto-scaling e endpoint asincroni per batch di richieste. Sfruttando l'opzione di inferenza appropriata per il tuo caso d'uso, puoi garantire un'implementazione e un'inferenza efficienti e modellate.

Scelta di una funzionalità

Esistono diversi casi d'uso per l'implementazione di modelli di machine learning con SageMaker AI. Questa sezione descrive questi casi d'uso, oltre alla funzionalità di SageMaker intelligenza artificiale che consigliamo per ogni caso d'uso.

Casi d'uso

Di seguito sono riportati i principali casi d'uso per l'implementazione di modelli di machine learning con SageMaker AI.

Caso d'uso 1: implementa un modello di machine learning in un ambiente low-code o senza codice. Per i principianti o per chi è alle prime armi con l' SageMaker intelligenza artificiale, puoi distribuire modelli pre-addestrati SageMaker JumpStart utilizzando Amazon tramite l'interfaccia di Amazon SageMaker Studio, senza la necessità di configurazioni complesse.
Caso d'uso 2: usa il codice per distribuire modelli di machine learning con maggiore flessibilità e controllo. I professionisti esperti di ML possono implementare i propri modelli con impostazioni personalizzate per le proprie esigenze applicative utilizzando la ModelBuilder classe dell'SDK AI SageMaker Python, che fornisce un controllo dettagliato su varie impostazioni, come i tipi di istanze, l'isolamento della rete e l'allocazione delle risorse.
Caso d'uso 3: implementazione di modelli di machine learning su larga scala. Per gli utenti e le organizzazioni avanzati che desiderano gestire modelli su larga scala in produzione, utilizza gli AWS SDK for Python (Boto3) strumenti Infrastructure as Code (IaC) e CI/CD desiderati per fornire risorse e automatizzare la gestione delle risorse. AWS CloudFormation

Funzionalità consigliate

La tabella seguente descrive le considerazioni e i compromessi chiave per le funzionalità di SageMaker intelligenza artificiale corrispondenti a ciascun caso d'uso.

	Caso d'uso 1	Caso d'uso 2	Caso d'uso 3
SageMaker Funzionalità AI	JumpStart Utilizzala in Studio per accelerare l'implementazione del modello di base.	Distribuisci modelli utilizzando ModelBuilder SageMaker Python SDK.	Implementa e gestisci modelli su larga scala con. AWS CloudFormation
Descrizione	Utilizza l'interfaccia utente di Studio per distribuire modelli preaddestrati da un catalogo a endpoint di inferenza preconfigurati. Questa opzione è ideale per i citizen data scientist o per chiunque desideri implementare un modello senza configurare impostazioni complesse.	Usa la `ModelBuilder` classe dell'SDK Amazon SageMaker AI Python per distribuire il tuo modello e configurare le impostazioni di distribuzione. Questa opzione è ideale per data scientist esperti o per chiunque abbia un proprio modello da implementare e richieda un controllo granulare.	Use AWS CloudFormation and Infrastructure as Code (IaC) per il controllo programmatico e l'automazione per l'implementazione e la gestione di modelli di intelligenza artificiale. SageMaker Questa opzione è ideale per utenti avanzati che richiedono implementazioni coerenti e ripetibili.
Ottimizzato per	Implementazioni rapide e semplificate dei modelli open source più diffusi	Implementazione dei propri modelli	Gestione continua dei modelli in produzione
Considerazioni	Mancanza di personalizzazione per le impostazioni dei contenitori e le esigenze specifiche delle applicazioni	Nessuna interfaccia utente, richiede che tu sia a tuo agio nello sviluppo e nella manutenzione del codice Python	Richiede la gestione dell'infrastruttura e risorse organizzative e richiede anche familiarità con AWS SDK for Python (Boto3) o con AWS CloudFormation i modelli.
Ambiente consigliato	Un dominio SageMaker AI	Un ambiente di sviluppo Python configurato con AWS le tue credenziali e l'SDK SageMaker Python installato o un IDE AI come SageMaker SageMaker JupyterLab	Poi AWS CLI, un ambiente di sviluppo locale e strumenti Infrastructure as Code (IaC) e CI/CD

Opzioni aggiuntive

SageMaker L'intelligenza artificiale offre diverse opzioni per i casi d'uso dell'inferenza, consentendoti di scegliere in base all'ampiezza e alla profondità tecnica delle tue implementazioni:

Implementazione di un modello su un endpoint. Quando distribuisci il tuo modello, considera le seguenti opzioni:
- Inferenza in tempo reale. L'inferenza in tempo reale è ideale per carichi di lavoro di inferenza in cui sono previsti requisiti interattivi e a bassa latenza.
- Implementa modelli con Amazon SageMaker Serverless Inference. Usa Serverless Inference per distribuire modelli senza configurare o gestire alcuna infrastruttura sottostante. Questa opzione è ideale per i carichi di lavoro che presentano periodi di inattività tra le interruzioni di traffico e possono tollerare partenze a freddo.
- Inferenza asincrona. mette in coda le richieste in arrivo e le elabora in modo asincrono. Questa opzione è ideale per richieste con payload di grandi dimensioni (fino a 1 GB), tempi di elaborazione lunghi (fino a un'ora di inferenza asincrona) e requisiti di latenza quasi in tempo reale
Ottimizzazione dei costi. Per ottimizzare i costi di inferenza, prendete in considerazione le seguenti opzioni:
- Ottimizzazione delle prestazioni dei modelli con SageMaker Neo. Usa SageMaker Neo per ottimizzare ed eseguire i tuoi modelli di machine learning con prestazioni ed efficienza migliori, aiutandoti a ridurre al minimo i costi di elaborazione ottimizzando automaticamente i modelli per l'esecuzione in ambienti come i chip AWS Inferentia.
- Ridimensionamento automatico dei modelli di SageMaker intelligenza artificiale di Amazon. Utilizza la scalabilità automatica per regolare dinamicamente le risorse di calcolo per i tuoi endpoint in base ai modelli di traffico in entrata, il che ti aiuta a ottimizzare i costi pagando solo le risorse che utilizzi in un determinato momento.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Riparazioni del cluster per errori della GPU

Implementazione di modelli