Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Verwenden Sie die SMDDP-Bibliothek in Ihrem TensorFlow Schulungsskript (veraltet)
Wichtig
Die SMDDP-Bibliothek hat die Unterstützung für DLCs eingestellt TensorFlow und ist ab Version 2.11.0 nicht mehr in DLCs verfügbar TensorFlow . Informationen zu früheren TensorFlow DLCs, auf denen die SMDDP-Bibliothek installiert war, finden Sie unter. Unterstützte Frameworks
Die folgenden Schritte zeigen Ihnen, wie Sie ein TensorFlow Trainingsskript ändern, um die verteilte parallel Datenbibliothek zu nutzen SageMaker.
Die Bibliotheks-APIs sind so konzipiert, dass sie den Horovod-APIs ähneln. Weitere Informationen zu den einzelnen APIs, für die die Bibliothek anbietet TensorFlow, finden Sie in der Dokumentation parallel TensorFlow API für SageMaker verteilte Daten
Anmerkung
SageMaker Distributed Data Parallel ist an TensorFlow Trainingsskripte anpassbar, die aus tf
Kernmodulen mit Ausnahme tf.keras
von Modulen bestehen. SageMaker Distributed Data Parallel unterstützt die TensorFlow Keras-Implementierung nicht.
Anmerkung
Die Bibliothek für SageMaker verteilte Datenparallelität unterstützt Automatic Mixed Precision (AMP) standardmäßig. Um AMP zu aktivieren, sind außer den Änderungen auf Framework-Ebene an Ihrem Trainingsskript keine weiteren Maßnahmen erforderlich. Wenn Gradienten in FP16 enthalten sind, führt die SageMaker Datenparallelitätsbibliothek ihren Betrieb in FP16 aus. AllReduce
Weitere Informationen zum Implementieren von AMP-APIs in Ihrem Trainingsskript finden Sie in den folgenden Ressourcen:
-
Frameworks — TensorFlow
in der Dokumentation zu NVIDIA Deep Learning Performance -
Automatic Mixed Precision for Deep Learning
in den NVIDIA-Entwicklerdokumenten -
TensorFlow APIs mit gemischter Präzision
in der TensorFlowDokumentation
-
Importieren Sie den TensorFlow Client der Bibliothek und initialisieren Sie ihn.
import smdistributed.dataparallel.tensorflow as sdp sdp.init()
-
Ordnen Sie jede GPU einem einzelnen
smdistributed.dataparallel
Prozess zu mitlocal_rank
–das bezieht sich auf den relativen Rang des Prozesses innerhalb eines bestimmten Knotens. Diesdp.tensorflow.local_rank()
API gibt Ihnen den lokalen Rang des Geräts an. Der Führungsnoten hat Rang 0, und die Worker-Knoten haben Rang 1, 2, 3, usw. Dies wird im folgenden Codeblock alssdp.local_rank()
aufgerufen.set_memory_growth
steht nicht in direktem Zusammenhang mit SageMaker Distributed, muss aber für verteiltes Training mit TensorFlow eingestellt werden.gpus = tf.config.experimental.list_physical_devices('GPU') for gpu in gpus: tf.config.experimental.set_memory_growth(gpu, True) if gpus: tf.config.experimental.set_visible_devices(gpus[sdp.local_rank()], 'GPU')
-
Skalieren Sie die Lernrate nach der Anzahl der Auftragnehmer. Die
sdp.tensorflow.size()
API stellt Ihnen die Anzahl der Auftragnehmer im Cluster zur Verfügung. Dies wird im folgenden Codeblock alssdp.size()
aufgerufen.learning_rate = learning_rate * sdp.size()
-
Verwenden Sie die
DistributedGradientTape
der Bibliothek, um denAllReduce
Betrieb während des Trainings zu optimieren.tf.GradientTape
ist damit abgeschlossen.with tf.GradientTape() as tape: output = model(input) loss_value = loss(label, output) # SageMaker data parallel: Wrap tf.GradientTape with the library's DistributedGradientTape tape = sdp.DistributedGradientTape(tape)
-
Senden Sie die anfänglichen Modellvariablen vom Führungsknoten (Rang 0) an alle Worker-Knoten (Ränge 1 bis n). Dies ist erforderlich, um eine konsistente Initialisierung in allen Auftragnehmer-Rängen sicherzustellen. Verwenden Sie die
sdp.tensorflow.broadcast_variables
API, nachdem die Modell- und Optimizer-Variablen initialisiert wurden. Dies wird im folgenden Codeblock alssdp.broadcast_variables()
aufgerufen.sdp.broadcast_variables(model.variables, root_rank=0) sdp.broadcast_variables(opt.variables(), root_rank=0)
-
Ändern Sie abschließend Ihr Skript so, dass es Checkpoints nur auf dem Führungsknoten speichert. Der Führungsknoten hat ein synchronisiertes Modell. Dadurch wird auch vermieden, dass Worker-Knoten die Checkpoints überschreiben und die Checkpoints möglicherweise beschädigen.
if sdp.rank() == 0: checkpoint.save(checkpoint_dir)
Im Folgenden finden Sie ein Beispiel für ein TensorFlow Trainingsskript für verteiltes Training mit der Bibliothek.
import tensorflow as tf # SageMaker data parallel: Import the library TF API import smdistributed.dataparallel.tensorflow as sdp # SageMaker data parallel: Initialize the library sdp.init() gpus = tf.config.experimental.list_physical_devices('GPU') for gpu in gpus: tf.config.experimental.set_memory_growth(gpu, True) if gpus: # SageMaker data parallel: Pin GPUs to a single library process tf.config.experimental.set_visible_devices(gpus[sdp.local_rank()], 'GPU') # Prepare Dataset dataset = tf.data.Dataset.from_tensor_slices(...) # Define Model mnist_model = tf.keras.Sequential(...) loss = tf.losses.SparseCategoricalCrossentropy() # SageMaker data parallel: Scale Learning Rate # LR for 8 node run : 0.000125 # LR for single node run : 0.001 opt = tf.optimizers.Adam(0.000125 * sdp.size()) @tf.function def training_step(images, labels, first_batch): with tf.GradientTape() as tape: probs = mnist_model(images, training=True) loss_value = loss(labels, probs) # SageMaker data parallel: Wrap tf.GradientTape with the library's DistributedGradientTape tape = sdp.DistributedGradientTape(tape) grads = tape.gradient(loss_value, mnist_model.trainable_variables) opt.apply_gradients(zip(grads, mnist_model.trainable_variables)) if first_batch: # SageMaker data parallel: Broadcast model and optimizer variables sdp.broadcast_variables(mnist_model.variables, root_rank=0) sdp.broadcast_variables(opt.variables(), root_rank=0) return loss_value ... # SageMaker data parallel: Save checkpoints only from master node. if sdp.rank() == 0: checkpoint.save(checkpoint_dir)
Nachdem Sie die Anpassung Ihres Trainingsskripts abgeschlossen haben, fahren Sie mit Schritt 2: Starten Sie einen verteilten Trainingsjob mit dem SageMaker Python-SDK fort.