As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Implantar modelos para inferência
Com a Amazon SageMaker, você pode começar a obter previsões ou inferências de seus modelos treinados de aprendizado de máquina. SageMaker fornece uma ampla seleção de opções de implantação de modelos e infraestrutura de ML para ajudar a atender a todas as suas necessidades de inferência de ML. Com a SageMaker inferência, você pode escalar a implantação de seu modelo, gerenciar modelos com mais eficiência na produção e reduzir a carga operacional. SageMaker fornece várias opções de inferência, como endpoints em tempo real para obter inferência de baixa latência, endpoints sem servidor para infraestrutura totalmente gerenciada e auto-scaling e endpoints assíncronos para lotes de solicitações. Ao aproveitar a opção de inferência apropriada para seu caso de uso, você pode garantir a eficiência e modelar a implantação e a inferência.
Escolhendo um recurso
Há vários casos de uso para implantar modelos de ML com o. SageMaker Esta seção descreve esses casos de uso, bem como o SageMaker recurso que recomendamos para cada caso de uso.
Casos de uso
A seguir estão os principais casos de uso para implantar modelos de ML com o. SageMaker
-
Caso de uso 1: implante um modelo de aprendizado de máquina em um ambiente com ou sem código. Para iniciantes ou iniciantes SageMaker, você pode implantar modelos pré-treinados usando a Amazon SageMaker JumpStart por meio da interface do Amazon SageMaker Studio, sem a necessidade de configurações complexas.
-
Caso de uso 2: use o código para implantar modelos de aprendizado de máquina com mais flexibilidade e controle. Profissionais experientes de ML podem implantar seus próprios modelos com configurações personalizadas para as necessidades de seus aplicativos usando a
ModelBuilder
classe em SageMaker SDK Python, que fornece controle refinado sobre várias configurações, como tipos de instância, isolamento de rede e alocação de recursos. -
Caso de uso 3: implante modelos de aprendizado de máquina em grande escala. Para usuários avançados e organizações que desejam gerenciar modelos em grande escala na produção, use as AWS SDK for Python (Boto3) ferramentas de Infraestrutura como Código (IaC) e CI/CD desejadas para provisionar recursos e automatizar o gerenciamento de recursos. AWS CloudFormation
Recursos recomendados
A tabela a seguir descreve as principais considerações e compensações dos SageMaker recursos correspondentes a cada caso de uso.
Caso de uso 1 | Caso de uso 2 | Caso de uso 3 | |
---|---|---|---|
SageMaker recurso | Use JumpStart no Studio para acelerar a implantação do seu modelo básico. | Implante modelos usando ModelBuilder o SageMaker Python SDK. | Implemente e gerencie modelos em grande escala com AWS CloudFormation. |
Descrição | Use a interface do usuário do Studio para implantar modelos pré-treinados de um catálogo em endpoints de inferência pré-configurados. Essa opção é ideal para cientistas de dados cidadãos ou para qualquer pessoa que queira implantar um modelo sem definir configurações complexas. | Use a ModelBuilder classe do Amazon SageMaker Python SDK para implantar seu próprio modelo e definir as configurações de implantação. Essa opção é ideal para cientistas de dados experientes ou para qualquer pessoa que tenha seu próprio modelo para implantar e exija um controle refinado. |
Uso AWS CloudFormation e infraestrutura como código (IaC) para controle programático e automação para implantação e gerenciamento de modelos. SageMaker Essa opção é ideal para usuários avançados que precisam de implantações consistentes e reproduzíveis. |
Otimizado para | Implantações rápidas e simplificadas de modelos populares de código aberto | Implantando seus próprios modelos | Gerenciamento contínuo de modelos em produção |
Considerações | Falta de personalização das configurações do contêiner e das necessidades específicas do aplicativo | Sem interface de usuário, requer que você se sinta confortável em desenvolver e manter o código Python | Requer gerenciamento de infraestrutura e recursos organizacionais, além de exigir familiaridade com os AWS CloudFormation modelos AWS SDK for Python (Boto3) ou com eles. |
Ambiente recomendado | Um SageMaker domínio | Um ambiente de desenvolvimento em Python configurado com suas AWS credenciais e o SageMaker Python SDK instalado, ou algo como SageMaker IDE SageMaker JupyterLab | O AWS CLI, um ambiente de desenvolvimento local e ferramentas de Infraestrutura como Código (IaC) e CI/CD |
Opções adicionais
SageMaker fornece opções diferentes para seus casos de uso de inferência, oferecendo opções sobre a amplitude técnica e a profundidade de suas implantações:
-
Implantação de um modelo em um endpoint. Ao implantar seu modelo, considere as seguintes opções:
Inferência em tempo real. A inferência em tempo real é ideal para cargas de trabalho de inferência em que você tem requisitos interativos e de baixa latência.
Implante modelos com o Amazon SageMaker Serverless Inference. Use a inferência sem servidor para implantar modelos sem configurar ou gerenciar nenhuma infraestrutura subjacente. Essa opção é ideal para cargas de trabalho que têm períodos de inatividade entre surtos de tráfego e podem tolerar partidas a frio.
Inferência assíncrona. enfileira as solicitações recebidas e as processa de forma assíncrona. Essa opção é ideal para solicitações com grandes tamanhos de carga útil (até 1 GB), longos tempos de processamento (até uma hora de toAsynchronous inferência) e requisitos de latência quase em tempo real
-
Otimização de custos. Para otimizar seus custos de inferência, considere as seguintes opções:
-
Otimização do desempenho do modelo com SageMaker o Neo. Use SageMaker o Neo para otimizar e executar seus modelos de aprendizado de máquina com melhor desempenho e eficiência, ajudando você a minimizar os custos de computação ao otimizar automaticamente os modelos para execução em ambientes como chips AWS Inferentia.
-
Escalabilidade automática dos modelos da Amazon SageMaker . Use o escalonamento automático para ajustar dinamicamente os recursos computacionais dos seus endpoints com base nos padrões de tráfego de entrada, o que ajuda a otimizar os custos pagando apenas pelos recursos que você está usando em um determinado momento.
-