Hospede modelos junto com a lógica de pré-processamento como pipeline de inferência serial atrás de um endpoint

Um pipeline de inferência é um SageMaker modelo da Amazon composto por uma sequência linear de dois a quinze contêineres que processam solicitações de inferências sobre dados. Você usa um pipeline de inferência para definir e implantar qualquer combinação de algoritmos SageMaker integrados pré-treinados e seus próprios algoritmos personalizados empacotados em contêineres do Docker. Você pode usar um pipeline de inferência para combinar pré-processamento, previsões e tarefas de ciência de dados de pós-processamento. Os pipelines de inferência são totalmente gerenciados.

Você pode adicionar contêineres SageMaker Spark ML Serving e scikit-learn que reutilizam os transformadores de dados desenvolvidos para modelos de treinamento. Todo o pipeline de inferência montado pode ser considerado como um SageMaker modelo que você pode usar para fazer previsões em tempo real ou para processar transformações em lote diretamente, sem nenhum pré-processamento externo.

Em um modelo de pipeline de inferência, SageMaker trata as invocações como uma sequência de solicitações HTTP. O primeiro contêiner no pipeline processa a solicitação inicial e, em seguida, a resposta intermediária é enviada como uma solicitação para o segundo contêiner, e assim por diante, para cada contêiner no pipeline. SageMaker retorna a resposta final para o cliente.

Quando você implanta o modelo de pipeline, SageMaker instala e executa todos os contêineres em cada instância do Amazon Elastic Compute Cloud (Amazon EC2) no endpoint ou na tarefa de transformação. O processamento de recursos e inferências são executados com baixa latência porque os contêineres estão localizados nas mesmas instâncias do EC2. Você define os contêineres de um modelo de pipeline usando a operação CreateModel ou no console. Em vez de definir umPrimaryContainer, você usa o Containers parâmetro para definir os contêineres que compõem o pipeline. Você também especifica a ordem na qual os contêineres são executados.

Um modelo de pipeline é imutável, mas você pode atualizar um pipeline de inferência com a implantação de um novo pipeline usando a operação UpdateEndpoint. Essa modularidade permite maior flexibilidade durante a experimentação.

Para obter informações sobre como criar um pipeline de inferência com o registro do SageMaker modelo, consulteRegistrar e implantar modelos com o Registro do modelo.

Não há custos adicionais pelo uso desse recurso. Você paga apenas pelas instâncias em execução em um endpoint.

Tópicos

Blocos de anotações de exemplo para pipelines de inferência

Para ver um exemplo que mostra como criar e implantar pipelines de inferência, consulte o caderno de amostra Inference Pipeline with Scikit-learn and Linear Learner. Para obter instruções sobre como criar e acessar instâncias do notebook Jupyter que você pode usar para executar o exemplo SageMaker, consulte. Instâncias do Amazon SageMaker Notebook

Para ver uma lista de todas as SageMaker amostras, depois de criar e abrir uma instância do notebook, escolha a guia SageMaker Exemplos. Existem três blocos de anotações de pipeline de inferência. Os dois primeiros blocos de anotações do pipeline de inferência estão localizados na pasta advanced_functionality, e o terceiro bloco de anotações está na pasta sagemaker-python-sdk. Para abrir um caderno, escolha sua aba Uso e depois escolha Criar cópia.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Use um endpoint de vários contêineres com invocação direta

Processar recursos com o SparkML e Scikit-learn