1. Gerenciamento centrado em dados

O gerenciamento de dados é a prática de garantir que os dados usados em treinamento, teste e inferência sejam gerenciados, protegidos e validados adequadamente. Ao criar modelos em grande escala, os dados são a principal mercadoria que permite o alto desempenho do modelo.

1.1 Repositório de dados	Um repositório de dados exige a capacidade de rastrear dados e ver seu ponto de origem. Quando novos dados são adicionados ou removidos, o repositório de dados registra essas alterações na point-in-time recuperação. O repositório de dados deve levar em conta como os dados do rótulo são rastreados e processados e como os artefatos de dados intermediários são rastreados.
1.2 Integração diversificada de fontes de dados	Dependendo da aplicação, treinar seu modelo pode exigir dados de várias fontes. Projetar e manter um manifesto que informe os profissionais de ML sobre as fontes de dados disponíveis e como elas se unem é fundamental para criar modelos.
1.3 Validação do esquema de dados	Para alimentar os dados dos modelos, é importante que os dados de treinamento sejam homogêneos. Transformações ou outras análises exploratórias podem ser necessárias para dados armazenados em soluções de data lake, como o Amazon Simple Storage Service (Amazon S3) ou em armazenamentos de dados de documentos.
1.4 Versão de dados e linhagem	Ao treinar modelos que possam ser usados na produção, você deve ser capaz de reproduzir os resultados e ter uma forma confiável de realizar estudos de ablação para entender melhor o desempenho geral do modelo. Acompanhar o estado dos dados de treinamento é fundamental para essa reprodutibilidade. Ferramentas como o Data Version Control (DVC) podem ajudar com isso.
1.5 Fluxo de trabalho de marcação	Nos casos em que os dados rotulados não estão disponíveis no início do projeto, a criação de dados rotulados geralmente é uma etapa necessária. Ferramentas como o Amazon SageMaker Ground Truth exigem que os dados de entrada sejam estruturados adequadamente e exigem um trabalho de rotulagem definido e testado. Uma força de trabalho de rotuladores internos ou externos deve ser usada. Em seguida, os dados devem ser validados usando abordagens redundantes de rotulagem ou aprendizado de máquina para identificar discrepâncias ou erros no conjunto de dados de treinamento.
1.6 Armazenamento de recursos online e offline	O sistema de ML tem um Feature Store ou um repositório centralizado para recursos e metadados associados para que seja possível reutilizar recursos ou entradas de modelo. Você pode criar um armazenamento online ou off-line. Use uma loja on-line para casos de uso de inferência em tempo real de baixa latência. Use uma loja off-line para treinamento e inferência em lote.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

MLOps componentes da lista de verificação

2. Experimentação