Implantar modelos para inferência - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Implantar modelos para inferência

Com a Amazon SageMaker, você pode começar a obter previsões ou inferências de seus modelos treinados de aprendizado de máquina. SageMaker fornece uma ampla seleção de opções de implantação de modelos e infraestrutura de ML para ajudar a atender a todas as suas necessidades de inferência de ML. Com a SageMaker inferência, você pode escalar a implantação de seu modelo, gerenciar modelos com mais eficiência na produção e reduzir a carga operacional. SageMaker fornece várias opções de inferência, como endpoints em tempo real para obter inferência de baixa latência, endpoints sem servidor para infraestrutura totalmente gerenciada e auto-scaling e endpoints assíncronos para lotes de solicitações. Ao aproveitar a opção de inferência apropriada para seu caso de uso, você pode garantir a eficiência e modelar a implantação e a inferência.

Escolhendo um recurso

Há vários casos de uso para implantar modelos de ML com o. SageMaker Esta seção descreve esses casos de uso, bem como o SageMaker recurso que recomendamos para cada caso de uso.

Casos de uso

A seguir estão os principais casos de uso para implantar modelos de ML com o. SageMaker

  • Caso de uso 1: implante um modelo de aprendizado de máquina em um ambiente com ou sem código. Para iniciantes ou iniciantes SageMaker, você pode implantar modelos pré-treinados usando a Amazon SageMaker JumpStart por meio da interface do Amazon SageMaker Studio, sem a necessidade de configurações complexas.

  • Caso de uso 2: use o código para implantar modelos de aprendizado de máquina com mais flexibilidade e controle. Profissionais experientes de ML podem implantar seus próprios modelos com configurações personalizadas para as necessidades de seus aplicativos usando a ModelBuilder classe em SageMaker SDK Python, que fornece controle refinado sobre várias configurações, como tipos de instância, isolamento de rede e alocação de recursos.

  • Caso de uso 3: implante modelos de aprendizado de máquina em grande escala. Para usuários avançados e organizações que desejam gerenciar modelos em grande escala na produção, use as AWS SDK for Python (Boto3) ferramentas de Infraestrutura como Código (IaC) e CI/CD desejadas para provisionar recursos e automatizar o gerenciamento de recursos. AWS CloudFormation

A tabela a seguir descreve as principais considerações e compensações dos SageMaker recursos correspondentes a cada caso de uso.

Caso de uso 1 Caso de uso 2 Caso de uso 3
SageMaker recurso Use JumpStart no Studio para acelerar a implantação do seu modelo básico. Implante modelos usando ModelBuilder o SageMaker Python SDK. Implemente e gerencie modelos em grande escala com AWS CloudFormation.
Descrição Use a interface do usuário do Studio para implantar modelos pré-treinados de um catálogo em endpoints de inferência pré-configurados. Essa opção é ideal para cientistas de dados cidadãos ou para qualquer pessoa que queira implantar um modelo sem definir configurações complexas. Use a ModelBuilder classe do Amazon SageMaker Python SDK para implantar seu próprio modelo e definir as configurações de implantação. Essa opção é ideal para cientistas de dados experientes ou para qualquer pessoa que tenha seu próprio modelo para implantar e exija um controle refinado. Uso AWS CloudFormation e infraestrutura como código (IaC) para controle programático e automação para implantação e gerenciamento de modelos. SageMaker Essa opção é ideal para usuários avançados que precisam de implantações consistentes e reproduzíveis.
Otimizado para Implantações rápidas e simplificadas de modelos populares de código aberto Implantando seus próprios modelos Gerenciamento contínuo de modelos em produção
Considerações Falta de personalização das configurações do contêiner e das necessidades específicas do aplicativo Sem interface de usuário, requer que você se sinta confortável em desenvolver e manter o código Python Requer gerenciamento de infraestrutura e recursos organizacionais, além de exigir familiaridade com os AWS CloudFormation modelos AWS SDK for Python (Boto3) ou com eles.
Ambiente recomendado Um SageMaker domínio Um ambiente de desenvolvimento em Python configurado com suas AWS credenciais e o SageMaker Python SDK instalado, ou algo como SageMaker IDE SageMaker JupyterLab O AWS CLI, um ambiente de desenvolvimento local e ferramentas de Infraestrutura como Código (IaC) e CI/CD

Opções adicionais

SageMaker fornece opções diferentes para seus casos de uso de inferência, oferecendo opções sobre a amplitude técnica e a profundidade de suas implantações:

  • Implantação de um modelo em um endpoint. Ao implantar seu modelo, considere as seguintes opções:

    • Inferência em tempo real. A inferência em tempo real é ideal para cargas de trabalho de inferência em que você tem requisitos interativos e de baixa latência.

    • Implante modelos com o Amazon SageMaker Serverless Inference. Use a inferência sem servidor para implantar modelos sem configurar ou gerenciar nenhuma infraestrutura subjacente. Essa opção é ideal para cargas de trabalho que têm períodos de inatividade entre surtos de tráfego e podem tolerar partidas a frio.

    • Inferência assíncrona. enfileira as solicitações recebidas e as processa de forma assíncrona. Essa opção é ideal para solicitações com grandes tamanhos de carga útil (até 1 GB), longos tempos de processamento (até uma hora de toAsynchronous inferência) e requisitos de latência quase em tempo real

  • Otimização de custos. Para otimizar seus custos de inferência, considere as seguintes opções:

    • Otimização do desempenho do modelo com SageMaker o Neo. Use SageMaker o Neo para otimizar e executar seus modelos de aprendizado de máquina com melhor desempenho e eficiência, ajudando você a minimizar os custos de computação ao otimizar automaticamente os modelos para execução em ambientes como chips AWS Inferentia.

    • Escalabilidade automática dos modelos da Amazon SageMaker . Use o escalonamento automático para ajustar dinamicamente os recursos computacionais dos seus endpoints com base nos padrões de tráfego de entrada, o que ajuda a otimizar os custos pagando apenas pelos recursos que você está usando em um determinado momento.