Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Personalizza gli iperparametri in base al tuo caso d'uso e ai tuoi dati per ottenere la massima efficienza di scalabilità. Nella discussione che segue, evidenziamo alcune delle variabili di formazione più importanti e forniamo riferimenti alle state-of-the-art implementazioni in modo che possiate saperne di più sulle opzioni a vostra disposizione. Inoltre, ti consigliamo di fare riferimento alla documentazione di addestramento distribuita del tuo framework preferito.
Dimensione batch
SageMaker I toolkit distribuiti di intelligenza artificiale generalmente consentono di allenarsi su lotti più grandi. Ad esempio, se un modello si adatta a un singolo dispositivo, ma può essere addestrato solo con batch di piccole dimensioni, l'utilizzo dell'addestramento con approccio parallelo al modello o parallelo ai dati consente di sperimentare batch di dimensioni maggiori.
Tieni presente che la dimensione del batch influenza direttamente la precisione del modello controllando la quantità di disturbo nell'aggiornamento del modello a ogni iterazione. L'aumento delle dimensioni del batch riduce la quantità di disturbo nella stima del gradiente, il che può essere utile quando si passa da batch di dimensioni molto piccole, ma può comportare una riduzione della precisione del modello man mano che la dimensione del batch aumenta fino a valori elevati.
Suggerimento
Modifica gli iperparametri per assicurarti che il modello raggiunga una convergenza soddisfacente man mano che aumenti le dimensioni del batch.
Sono state sviluppate diverse tecniche per mantenere una buona convergenza dei modelli quando si aumenta il numero di batch.
Dimensioni del mini-batch
In SGD, le dimensioni del mini-batch quantificano la quantità di disturbo presente nella stima del gradiente. Un mini-batch piccolo produce un gradiente di mini-batch con molto disturbo, che non è rappresentativo del gradiente reale sul set di dati. Un mini-batch grande produce un gradiente in mini-batch simile al gradiente reale sul set di dati e potenzialmente con un disturbo insufficiente, che probabilmente rimarrà bloccato in minimi irrilevanti.
Per ulteriori informazioni su queste tecniche, consulta i seguenti documenti:
-
Minibatch accurato e di grandi dimensioni SGD: ImageNet
addestramento in 1 ora, Goya et al. -
PowerAI DDL
, Cho et al. -
Large Batch Training of Convolutional Networks
, You et al. -
Large Batch Optimization for Deep Learning: Training BERT in 76 Minutes
, You et al. -
Accelerated Large Batch Optimization of BERT Pretraining in 54 minutes
, Zheng et al. -
Deep Gradient Compression
, Lin et al.