4. Pipelines e promoções robustos - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

4. Pipelines e promoções robustos

Os pipelines oferecem muitas opções para ajuste de hiperparâmetros, AutoML e rotinas de processamento. Os dutos são registrados de ponta a ponta. Os pipelines robustos podem executar o treinamento em paralelo em várias instâncias e estruturas, escalando os tamanhos de carga conforme necessário. Os pipelines robustos podem promover a produção de modelos, implantá-los em tempo real, streaming e em lote. Essas implantações podem oferecer suporte à inferência de modelo único ou de vários modelos.

4.1 Treinamento distribuído e em grande escala

Um sistema de ML maduro oferece suporte à capacidade de executar treinamento em grandes instâncias otimizadas para computação em paralelo. Ele tem as ferramentas necessárias para ajudar a garantir que esses recursos sejam totalmente usados e que o treinamento seja escalonado uniformemente em todo o cluster de computação.

4.2 Suporte para várias estruturas

Os desenvolvedores podem portar diferentes estruturas de plataforma, comoPyTorchou Flax, para executar trabalhos de treinamento e inferência. Da mesma forma, diferentes idiomas e versões são suportados e utilizáveis. Mudar para outra estrutura não interromperá o sistema.

4.3 Ajuste de hiperparâmetros

Uma etapa de ajuste de hiperparâmetros faz parte do pipeline de treinamento. Os modelos implantados têm seus hiperparâmetros ajustados. Várias opções estão disponíveis para ajustar os hiperparâmetros. Para melhorar a precisão, pelo menos uma das opções de ajuste deve ter uma inferência ou abordagem bayesiana.

4.4 Opção AutoML

Para reduzir a experimentação e a comparação manuais, um sistema de ML maduro suporta a execução do AutoML, que seleciona automaticamente o melhor pipeline de recursos, hiperparâmetros e modelo. Observe que o AutoML é um recurso a ser usado de forma pragmática, mas não é uma panaceia.

4.5 Suporte de inferência: tempo real

Isso é comumente chamado de modelo como serviço (MaaS). O sistema suporta inferência em tempo real com operações da API REST, para solicitação de inferência sob demanda. Ele é capaz de fornecer uma infraestrutura MaaS na qual o modelo pode ser escalado horizontal e verticalmente como uma API independente ou como um endpoint associado a outros aplicativos. Como alternativa, é possível implantar usando tecnologia sem servidor.

4.6 Suporte de inferência: streaming

Os modelos podem ser promovidos para um formato de inferência em tempo real, como Amazon Kinesis ou Amazon Managed Streaming para Apache Kafka, em que a inferência é executada de forma de streaming no modelo. Isso exige que pelo menos 90% da lista de verificação seja concluída, porque barreiras, observabilidade e monitoramento são essenciais para a inferência em tempo real.

4.7 Suporte de inferência: lote

O sistema suporta a implantação em lote de modelos como trabalhos programados ou iniciados. O sistema pode executar modelos como parte de um processo de extração, transformação e carregamento (ETL) ou isoladamente. Os trabalhos em lote registram o estado de cada etapa e são executados em um padrão ordenado, como um gráfico acíclico direcionado. Como alternativa, os trabalhos podem gravar em um banco de dados, que atua como o servidor da inferência do modelo.

4.8 Rotinas de pré-processamento e pós-processamento

Quando necessário, os dados são apresentados como parte do processo de entrada do modelo ou dos trabalhos em lote. Se houver vários modelos ou várias etapas em jogo, as rotinas de pós-processamento se encarregam de caracterizar os dados.

4.9 Capacidade de invocar modelos hierárquicos ou simultâneos

O sistema de ML pode implantar vários modelos juntos ou executá-los de forma sequencial. O primeiro significa hospedar em um único modelo de endpoint em uma frota de recursos. O último implica que vários modelos precisam ser executados de forma encadeada, um após o outro. O sistema pode lidar com esses dois tipos de complexidade de forma resiliente.

4.10 Estratégias de escala horizontal e vertical

Um pipeline deve ter a capacidade de suportar os dois tipos de estratégias de escalabilidade para treinamento e inferência. O sistema de ML pode aumentar seu tamanho e distribuir o tráfego em várias máquinas quando a latência ou a taxa de transferência aumentam. As políticas para esse tipo de comportamento são definidas e consideram a alocação ideal de recursos.

4.11 Registro de ponta a ponta

A equipe de desenvolvimento deve ter o registro definido dentro de todo o código do pipeline para que o registro possa capturar entradas, saídas e etapas intermediárias no sistema. O registro deve suportar o rastreamento de execuções no pipeline e a erros de depuração.