As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
4. Pipelines robustos e promoção
Os pipelines oferecem muitas opções para ajuste de hiperparâmetros, AutoML e rotinas de processamento. Os dutos são registrados de ponta a ponta. Pipelines robustos podem executar treinamentos paralelamente em várias instâncias e estruturas, escalando os tamanhos de carga conforme necessário. Pipelines robustos podem promover a produção de modelos, implantando-os em tempo real, em streaming e em lote. Essas implantações podem oferecer suporte à inferência de modelo único ou de vários modelos.
4.1 Treinamento distribuído e em grande escala |
Um sistema de ML maduro oferece suporte à capacidade de executar treinamentos em grandes instâncias otimizadas para computação em paralelo. Ele tem as ferramentas para ajudar a garantir que esses recursos sejam totalmente usados e que o treinamento seja escalado uniformemente em todo o cluster de computação. |
4.2 Support para vários frameworks |
Os desenvolvedores podem portar diferentes estruturas de plataforma, como PyTorch ou Flax, para executar trabalhos de treinamento e inferência. Da mesma forma, diferentes idiomas e versões são suportados e utilizáveis. Mudar para outra estrutura não quebrará o sistema. |
4.3 Ajuste de hiperparâmetros |
Uma etapa de ajuste de hiperparâmetros faz parte do pipeline de treinamento. Os modelos implantados têm seus hiperparâmetros ajustados. Várias opções estão disponíveis para ajustar os hiperparâmetros. Para melhorar a precisão, pelo menos uma das opções de ajuste deve ter uma inferência ou abordagem bayesiana. |
4.4 Opção AutoML |
Para reduzir a experimentação e a comparação manuais, um sistema de ML maduro suporta a execução do AutoML, que seleciona automaticamente o melhor pipeline de recursos, hiperparâmetros e modelo. Observe que o AutoML é um recurso a ser usado de forma pragmática, mas não é uma panacéia. |
4.5 Suporte de inferência: tempo real |
Isso é comumente chamado de modelo como serviço (MaaS). O sistema suporta inferência em tempo real com operações da API REST, para solicitação de inferência sob demanda. Ele é capaz de fornecer uma infraestrutura MaaS na qual o modelo pode ser escalado horizontal e verticalmente como uma API independente ou como um endpoint associado a outros aplicativos. Como alternativa, é possível implantar usando a tecnologia sem servidor. |
4.6 Suporte de inferência: streaming |
Os modelos podem ser promovidos para um formato de inferência em tempo real, como Amazon Kinesis ou Amazon Managed Streaming for Apache Kafka, em que a inferência é executada em streaming no modelo. Isso exige que pelo menos 90% da lista de verificação seja concluída, porque barreiras de proteção, observabilidade e monitoramento são essenciais para inferência em tempo real. |
4.7 Suporte de inferência: lote |
O sistema suporta a implantação em lote de modelos como trabalhos programados ou iniciados. O sistema pode executar modelos como parte de um processo de extração, transformação e carregamento (ETL) ou isoladamente. Os trabalhos em lote registram o estado de cada etapa e são executados em um padrão ordenado, como um gráfico acíclico direcionado. Como alternativa, os trabalhos podem gravar em um banco de dados, que atua como o servidor de inferência do modelo. |
4.8 Rotinas de pré-processamento e pós-processamento |
Quando necessário, os dados são caracterizados como parte do processo de entrada do modelo ou dos trabalhos em lotes. Se houver vários modelos ou várias etapas em execução, as rotinas de pós-processamento se encarregam de caracterizar os dados. |
4.9 Capacidade de invocar modelos hierárquicos ou simultâneos |
O sistema ML pode implantar vários modelos juntos ou executá-los de forma sequencial. O primeiro significa hospedar em um único modelo de endpoint em uma frota de recursos. O último implica que vários modelos precisam ser executados de forma encadeada, um após o outro. O sistema pode lidar com esses dois tipos de complexidade de forma resiliente. |
4.10 Estratégias de escalonamento horizontal e vertical |
Um pipeline deve ter a capacidade de oferecer suporte aos dois tipos de estratégias de escalonamento para treinamento e inferência. O sistema ML pode aumentar seu tamanho e distribuir o tráfego em várias máquinas quando a latência ou a taxa de transferência aumentam. As políticas para esse tipo de comportamento são definidas e consideram a alocação ideal de recursos. |
4.11 registro End-to-end em log |
A equipe de desenvolvimento deve ter o registro definido em todo o código do pipeline para que o registro possa capturar entradas, saídas e etapas intermediárias no sistema. O registro deve oferecer suporte ao rastreamento de execuções no pipeline e a erros de depuração. |