As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
1. Gerenciamento centrado em dados
O gerenciamento de dados é a prática de garantir que os dados usados em treinamento, teste e inferência sejam gerenciados, protegidos e validados adequadamente. Ao criar modelos em grande escala, os dados são a principal mercadoria que permite o alto desempenho do modelo.
1.1 Repositório de dados |
Um repositório de dados exige a capacidade de rastrear dados e ver seu ponto de origem. Quando novos dados são adicionados ou removidos, o repositório de dados registra essas alterações na point-in-time recuperação. O repositório de dados deve levar em conta como os dados do rótulo são rastreados e processados e como os artefatos de dados intermediários são rastreados. |
1.2 Integração diversificada de fontes de dados |
Dependendo da aplicação, treinar seu modelo pode exigir dados de várias fontes. Projetar e manter um manifesto que informe os profissionais de ML sobre as fontes de dados disponíveis e como elas se unem é fundamental para criar modelos. |
1.3 Validação do esquema de dados |
Para alimentar os dados dos modelos, é importante que os dados de treinamento sejam homogêneos. Transformações ou outras análises exploratórias podem ser necessárias para dados armazenados em soluções de data lake, como o Amazon Simple Storage Service (Amazon S3) ou em armazenamentos de dados de documentos. |
1.4 Versão de dados e linhagem |
Ao treinar modelos que possam ser usados na produção, você deve ser capaz de reproduzir os resultados e ter uma forma confiável de realizar estudos de ablação |
1.5 Fluxo de trabalho de marcação |
Nos casos em que os dados rotulados não estão disponíveis no início do projeto, a criação de dados rotulados geralmente é uma etapa necessária. Ferramentas como o Amazon SageMaker Ground Truth exigem que os dados de entrada sejam estruturados adequadamente e exigem um trabalho de rotulagem definido e testado. Uma força de trabalho de rotuladores internos ou externos deve ser usada. Em seguida, os dados devem ser validados usando abordagens redundantes de rotulagem ou aprendizado de máquina para identificar discrepâncias ou erros no conjunto de dados de treinamento. |
1.6 Armazenamento de recursos online e offline |
O sistema de ML tem um Feature Store ou um repositório centralizado para recursos e metadados associados para que seja possível reutilizar recursos ou entradas de modelo. Você pode criar um armazenamento online ou off-line. Use uma loja on-line para casos de uso de inferência em tempo real de baixa latência. Use uma loja off-line para treinamento e inferência em lote. |