1. Gestione incentrata sui dati - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

1. Gestione incentrata sui dati

La gestione dei dati è la pratica volta a garantire che i dati utilizzati nella formazione, nei test e nell'inferenza siano gestiti, protetti e convalidati correttamente. Quando si creano modelli su larga scala, i dati sono la risorsa principale che consente prestazioni elevate dei modelli.

1.1 Archivio di dati

Un archivio di dati richiede la capacità di tracciare i dati e vederne il punto di origine. Quando vengono aggiunti o rimossi nuovi dati, il data repository registra le modifiche in fase di ripristino. point-in-time L'archivio di dati deve tenere conto del modo in cui i dati delle etichette vengono tracciati ed elaborati e di come vengono tracciati gli artefatti dei dati intermedi.

1.2 Integrazione di diverse fonti di dati

A seconda dell'applicazione, l'addestramento del modello potrebbe richiedere dati provenienti da diverse fonti. La progettazione e la manutenzione di un manifesto che informi i professionisti del machine learning sulle fonti di dati disponibili e sul modo in cui interagiscono è fondamentale per la creazione di modelli.

1.3 Convalida dello schema dei dati

Per alimentare i dati dei modelli, è importante che i dati di addestramento siano omogenei. Potrebbero essere necessarie trasformazioni o altre analisi esplorative per i dati archiviati in soluzioni data lake come Amazon Simple Storage Service (Amazon S3) o in archivi di dati documentali.

1.4 Versionamento e derivazione dei dati

Quando si addestrano modelli che potrebbero essere utilizzati in produzione, è necessario essere in grado di riprodurre i risultati e disporre di un modo affidabile per eseguire studi di ablazione per comprendere meglio le prestazioni complessive del modello. Il monitoraggio dello stato dei dati di addestramento è fondamentale per questa riproducibilità. Strumenti come Data Version Control (DVC) possono aiutarvi in questo senso.

1.5 Flusso di lavoro di etichettatura

Nei casi in cui i dati etichettati non sono disponibili all'inizio del progetto, la creazione di dati etichettati è spesso un passaggio necessario. Strumenti come Amazon SageMaker Ground Truth richiedono che i dati di input siano strutturati in modo appropriato e richiedono un processo di etichettatura definito e testato. È necessario utilizzare una forza lavoro composta da etichettatori interni o esterni. I dati devono quindi essere convalidati, utilizzando approcci di etichettatura ridondanti o di apprendimento automatico per identificare valori anomali o errori nel set di dati di formazione.

1.6 Archiviazione delle funzionalità online e offline

Il sistema ML dispone di un Feature Store o di un archivio centralizzato per le funzionalità e i metadati associati in modo che sia possibile riutilizzare le funzionalità o gli input del modello. Puoi creare un archivio online o offline. Utilizza un negozio online per casi d'uso di inferenza in tempo reale e a bassa latenza. Utilizza un negozio offline per la formazione e l'inferenza in batch.