Perfezionamento dei dati durante la formazione con Amazon SageMaker smart sifting - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Perfezionamento dei dati durante la formazione con Amazon SageMaker smart sifting

SageMaker lo smart sifting è una funzionalità di SageMaker formazione che aiuta a migliorare l'efficienza dei set di dati di formazione e a ridurre i tempi e i costi totali di formazione.

I moderni modelli di deep learning, come i modelli di linguaggio di grandi dimensioni (LLMs) o i modelli di trasformazione della visione, spesso richiedono enormi set di dati per ottenere una precisione accettabile. Ad esempio, per la convergenza LLMs spesso sono necessari trilioni di token o petabyte di dati. Le dimensioni crescenti dei set di dati di addestramento, insieme alle dimensioni dei state-of-the-art modelli, possono aumentare i tempi di elaborazione e i costi dell'addestramento dei modelli.

Invariabilmente, i campioni di un set di dati non contribuiscono allo stesso modo al processo di apprendimento durante l'addestramento dei modelli. Una parte significativa delle risorse computazionali fornite durante la formazione potrebbe essere spesa per l'elaborazione di campioni semplici che non contribuiscono in modo sostanziale alla precisione complessiva di un modello. Idealmente, i set di dati di addestramento includerebbero solo campioni che stanno effettivamente migliorando la convergenza del modello. Filtrare i dati meno utili può ridurre i tempi di formazione e i costi di calcolo. Tuttavia, identificare i dati meno utili può essere difficile e rischioso. È praticamente difficile identificare quali campioni siano meno informativi prima dell'addestramento e la precisione del modello può risentirne se si escludono i campioni sbagliati o se si escludono troppi campioni.

Il setacciamento intelligente dei dati con Amazon SageMaker può aiutare a ridurre i tempi e i costi di formazione migliorando l'efficienza dei dati. L'algoritmo SageMaker smart sifting valuta il valore di perdita di ogni dato durante la fase di caricamento dei dati di un processo di formazione ed esclude i campioni che sono meno informativi per il modello. Utilizzando dati raffinati per l'addestramento, il tempo e il costo totali di addestramento del modello vengono ridotti eliminando inutili trasferimenti avanti e indietro su dati non migliorativi. Pertanto, l'impatto sulla precisione del modello è minimo o nullo.

SageMaker smart sifting è disponibile tramite SageMaker Training Deep Learning Containers (DLCs) e supporta PyTorch carichi di lavoro tramite. PyTorch DataLoader Bastano poche righe di modifica del codice per implementare lo SageMaker smart sifting e non è necessario modificare i flussi di lavoro di formazione o elaborazione dei dati esistenti.