Best practice per l'ottimizzazione dei costi di inferenza

Il seguente contenuto fornisce tecniche e considerazioni per ottimizzare il costo degli endpoint. È possibile utilizzare questi suggerimenti per ottimizzare i costi sia per gli endpoint nuovi che per quelli esistenti.

Best practice

Per ottimizzare i costi di SageMaker inferenza, segui queste best practice.

SageMaker offre 4 diverse opzioni di inferenza per fornire la migliore opzione di inferenza per il lavoro. Potresti essere in grado di risparmiare sui costi scegliendo l'opzione di inferenza più adatta al tuo carico di lavoro.

Utilizza l'inferenza in tempo reale per carichi di lavoro a bassa latenza con modelli di traffico prevedibili che devono avere caratteristiche di latenza coerenti e essere sempre disponibili. Si paga per l'utilizzo dell'istanza.
Utilizza l'inferenza serverless per carichi di lavoro sincroni con un modello di traffico intenso e in grado di accettare variazioni nella latenza p99. L'inferenza serverless si dimensiona automaticamente per soddisfare il traffico del carico di lavoro, in modo da non pagare per le risorse inattive. Si paga solo per la durata della richiesta di inferenza. È possibile utilizzare lo stesso modello e gli stessi container con inferenza real-time e serverless, in modo da poter passare da una modalità all'altra se le esigenze cambiano.
Utilizza l'inferenza asincrona per carichi di lavoro asincroni che elaborano fino a 1 GB di dati (come corpus di testo, immagini, video e audio) non sensibili alla latenza e ai costi. Con l'inferenza asincrona, puoi controllare i costi specificando un numero fisso di istanze per la velocità di elaborazione ottimale anziché effettuare il provisioning per il picco. Puoi anche ridurle a zero per risparmiare costi aggiuntivi.
Utilizza l'inferenza in batch per i carichi di lavoro per i quali è necessaria l'inferenza per un ampio set di dati per i processi che avvengono offline (ovvero, non è necessario un endpoint persistente). Si paga l'istanza per la durata del processo di inferenza batch.

Se hai un livello di utilizzo costante per tutti i SageMaker servizi, puoi optare per un SageMaker Savings Plan per ridurre i costi fino al 64%.
Amazon SageMaker Savings Plans offre un modello di prezzo flessibile per Amazon SageMaker, in cambio dell'impegno a garantire una quantità di utilizzo costante (misurata in $/ora) per un periodo di uno o tre anni. Questi piani si applicano automaticamente agli utilizzi di istanze SageMaker ML idonei, tra cui SageMaker Studio Classic Notebook, SageMaker On-Demand Notebook, SageMaker Processing, SageMaker Data Wrangler, SageMaker Training, SageMaker Real-Time Inference e SageMaker Batch Transform, indipendentemente dalla famiglia, dalle dimensioni o dalla regione dell'istanza. Ad esempio, è possibile modificare in qualsiasi momento l'utilizzo da un'istanza CPU ml.c5.xlarge in esecuzione negli Stati Uniti orientali (Ohio) a un'istanza ML.INF1 negli Stati Uniti occidentali (Oregon) per i carichi di lavoro di inferenza e continuare automaticamente a pagare il prezzo Savings Plans.

I modelli non ottimizzati possono portare a tempi di esecuzione più lunghi e utilizzare più risorse. Per migliorare le prestazioni, si può scegliere di utilizzare istanze più numerose o più grandi, ma questo comporta costi maggiori.
Ottimizzando i vostri modelli per renderli più performanti, potreste essere in grado di ridurre i costi utilizzando meno istanze o istanze più piccole, mantenendo le stesse o migliori caratteristiche di performance. Puoi usare SageMaker Neo with SageMaker Inference per ottimizzare automaticamente i modelli. Per ulteriori dettagli ed esempi, vedere Ottimizzazione delle prestazioni del modello con Neo.

SageMaker Inference ha oltre 70 tipi e dimensioni di istanze che possono essere utilizzati per implementare modelli di machine learning, inclusi i chipset AWS Inferentia e Graviton ottimizzati per il machine learning. La scelta dell'istanza giusta per il tuo modello ti aiuta ad avere l'istanza più performante al costo più basso per i modelli.

Utilizzando il Suggeritore di inferenza, è possibile confrontare rapidamente diverse istanze per comprendere le prestazioni del modello e i costi. Con questi risultati, puoi scegliere l'istanza da implementare con il miglior ritorno sull'investimento.

I costi possono aumentare rapidamente quando si implementano più endpoint, soprattutto se gli endpoint non utilizzano appieno le istanze sottostanti. Per capire se l'istanza è sottoutilizzata, controlla i parametri di utilizzo (CPU, GPU, ecc.) in Amazon per le tue istanze. CloudWatch Se disponi di più di uno di questi endpoint, puoi combinare i modelli o i container su questi più endpoint in un unico endpoint.
Utilizzando endpoint multi-modello (MME) o endpoint multi-container (MCE), puoi implementare più modelli o container ML in un unico endpoint per condividere l'istanza tra più modelli o container e migliorare il ritorno sull'investimento. Per ulteriori informazioni, consulta la sezione Risparmia sui costi di inferenza utilizzando endpoint SageMaker multimodello Amazon o Implementa più container di servizio su una singola istanza utilizzando endpoint SageMaker multi-container Amazon sul blog Machine Learning. AWS

Senza il dimensionamento automatico, è necessario prevedere il traffico di picco o la non disponibilità del modello di rischio. A meno che il traffico verso il modello non sia costante per tutto il giorno, ci sarà un eccesso di capacità inutilizzata. Ciò comporta un basso utilizzo e uno spreco di risorse.
L'autoscaling è una out-of-the-box funzionalità che monitora i carichi di lavoro e regola dinamicamente la capacità per mantenere prestazioni stabili e prevedibili al minor costo possibile. Quando il carico di lavoro aumenta, Auto Scaling offre più istanze online. Quando il carico di lavoro diminuisce, il dimensionamento automatico rimuove le istanze non necessarie, aiutandoti a ridurre i costi di elaborazione. Per ulteriori informazioni, consulta Configurazione degli endpoint di inferenza con scalabilità automatica in Amazon sul SageMaker blog Machine Learning. AWS

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Risoluzione dei problemi relativi alle distribuzioni

Best practice per ridurre al minimo le interruzioni durante gli aggiornamenti dei driver della GPU