Práticas recomendadas de otimização de custos de inferência

O conteúdo a seguir fornece técnicas e considerações para otimizar o custo dos endpoints. Você pode usar essas recomendações para otimizar o custo de endpoints novos e existentes.

Práticas recomendadas

Para otimizar seus custos de SageMaker inferência, siga estas melhores práticas.

SageMaker oferece 4 opções de inferência diferentes para fornecer a melhor opção de inferência para o trabalho. Você pode economizar em custos escolhendo a opção de inferência que melhor se adequa à sua workload.

Use inferência em tempo real para workloads de baixa latência com padrões de tráfego previsíveis que precisam ter características de latência consistentes e estar sempre disponíveis. Você paga pelo uso da instância.
Use inferência sem servidor para workloads síncronas que têm um padrão de tráfego intenso e podem aceitar variações na latência p99. A inferência sem servidor é escalada automaticamente para atender ao seu tráfego de workload, para que você não pague por nenhum recurso ocioso. Você paga apenas pela duração da solicitação de inferência. O mesmo modelo e contêineres podem ser usados com inferência em tempo real e sem servidor, para que você possa alternar entre esses dois modos se suas necessidades mudarem.
Use inferência assíncrona para workloads assíncronas que processam até 1 GB de dados (como corpus de texto, imagem, vídeo e áudio) que são insensíveis à latência e aos custos. Com a inferência assíncrona, você pode controlar os custos especificando um número fixo de instâncias para a taxa de processamento ideal, em vez de provisionar para o pico. Você também pode reduzir para zero para economizar custos adicionais.
Use a inferência em lote para workloads para as quais você precisa de inferência para um grande conjunto de dados para processos que acontecem offline (ou seja, você não precisa de um endpoint persistente). Você paga pela instância pela duração do trabalho de inferência em lote.

Se você tiver um nível de uso consistente em todos os SageMaker serviços, poderá optar por um SageMaker Savings Plan para ajudar a reduzir seus custos em até 64%.
Os Amazon SageMaker Savings Plans fornecem um modelo de preços flexível para a Amazon SageMaker, em troca do compromisso com uma quantidade consistente de uso (medida em USD/hora) por um período de um ou três anos. Esses planos se aplicam automaticamente aos usos de instâncias de SageMaker ML elegíveis, incluindo SageMaker Studio Classic Notebook, SageMaker On-Demand Notebook, SageMaker Processing, SageMaker Data Wrangler, SageMaker Training, SageMaker Real-Time Inference e SageMaker Batch Transform, independentemente da família, tamanho ou região da instância. Por exemplo, você pode alterar o uso de uma instância de CPU ml.c5.xlarge em execução no Leste dos EUA (Ohio) para uma instância ML.inf1 no Oeste dos EUA (Oregon) para workloads de inferência a qualquer momento e continuar pagando automaticamente o preço do Savings Plans.

Modelos não otimizados podem levar a tempos de execução mais longos e usar mais recursos. Você pode optar por usar mais ou maiores instâncias para melhorar o desempenho; no entanto, isso leva a custos mais altos.
Ao otimizar seus modelos para melhorar o desempenho, você poderá reduzir os custos usando instâncias menores ou menores, mantendo as mesmas ou melhores características de desempenho. Você pode usar SageMaker o Neo com SageMaker Inference para otimizar modelos automaticamente. Para obter mais detalhes e exemplos, consulte Otimize o desempenho do modelo usando o Neo.

SageMaker A inferência tem mais de 70 tipos e tamanhos de instância que podem ser usados para implantar modelos de ML, incluindo chipsets AWS Inferentia e Graviton, otimizados para ML. Escolher a instância certa para seu modelo ajuda a garantir que você tenha a instância de melhor desempenho com o menor custo para seus modelos.

Ao usar o Recomendador de inferência, você pode comparar rapidamente diferentes instâncias para entender o desempenho do modelo e os custos. Com esses resultados, você pode escolher a instância a ser implantada com o melhor retorno sobre o investimento.

Os custos podem aumentar rapidamente quando você implanta vários endpoints, especialmente se os endpoints não utilizarem totalmente as instâncias subjacentes. Para entender se a instância está subutilizada, verifique as métricas de utilização (CPU, GPU etc.) na Amazon para suas instâncias. CloudWatch Se você tiver mais de um desses endpoints, poderá combinar os modelos ou contêineres nesses vários endpoints em um único endpoint.
Usando endpoints de vários modelos (MME) ou terminais de vários contêineres (MCE), você pode implantar vários modelos ou contêineres de ML em um único endpoint para compartilhar a instância em vários modelos ou contêineres e melhorar seu retorno sobre o investimento. Para saber mais, consulte Economize nos custos de inferência usando endpoints SageMaker multimodelo da Amazon ou implante vários contêineres de serviço em uma única instância usando endpoints de vários contêineres da Amazon no SageMaker blog do Machine Learning. AWS

Sem a autoescalabilidade, você precisa provisionar para picos de tráfego ou para a indisponibilidade do modelo de risco. A menos que o tráfego para seu modelo seja estável ao longo do dia, haverá excesso de capacidade não utilizada. Isso leva à baixa utilização e ao desperdício de recursos.
O escalonamento automático é um out-of-the-box recurso que monitora suas cargas de trabalho e ajusta dinamicamente a capacidade de manter um desempenho estável e previsível com o menor custo possível. Quando a workload aumenta, a escalabilidade automática disponibiliza mais instâncias online. Quando a workload diminui, a autoescalabilidade remove instâncias desnecessárias, ajudando você a reduzir seu custo de computação. Para saber mais, consulte Configuração de endpoints de inferência de escalonamento automático na Amazon no blog do SageMaker Machine Learning. AWS

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Solucionar problemas de implantações

Práticas recomendadas para minimizar as interrupções durante as atualizações do driver da GPU