Training mit gemischter Präzision FP8 auf P5-Instanzen mithilfe der Transformer Engine Gemischtes Präzisionstraining mit Datentypen mit halber Genauigkeit unter Verwendung von FSDP PyTorch

Gemischtes Präzisionstraining

Die SageMaker Modellparallelismus-Bibliothek (SMP) v2 unterstützt standardmäßig gemischtes Präzisionstraining, indem sie in Open-Source-Frameworks wie FSDP und Transformer Engine integriert wird. PyTorch Weitere Informationen finden Sie unter den folgenden Themen.

Themen

Training mit gemischter Präzision FP8 auf P5-Instanzen mithilfe der Transformer Engine
Gemischtes Präzisionstraining mit Datentypen mit halber Genauigkeit unter Verwendung von FSDP PyTorch

Training mit gemischter Präzision FP8 auf P5-Instanzen mithilfe der Transformer Engine

Ausgehend von der SageMaker Modellparallelismus-Bibliothek (SMP) v2.2.0 ist die SMP-Bibliothek in die Transformer Engine integriert und unterstützt standardmäßig FP8 gemischtes Präzisionstraining, wobei die Kompatibilität mit FSDP gewahrt bleibt. PyTorch MixedPrecision Das bedeutet, dass Sie sowohl PyTorch FSDP für Mixed-Precision-Training als auch Transformer Engine für Schulungen verwenden können. FP8 Für Modellebenen, die nicht von der FP8 Trainingsfunktion der Transformer Engine unterstützt werden, greifen diese Schichten auf PyTorch FSDP Mixed Precision zurück.

Anmerkung

SMP v2 bietet FP8 Unterstützung für die folgenden Hugging Face Transformer-Modelle:

GPT-Neox (verfügbar in SMP v2.2.0 und höher)
Llama 2 (verfügbar in SMP v2.2.0 und höher)
Mixtral 8x7b und Mixtral 8x22b (verfügbar in SMP v2.5.0 und höher)

Anmerkung

Diese FP8 Schulung zur P5-Funktion ist in der folgenden Kombination aus Bibliotheken von und der Bibliothek verfügbar: SageMaker PyTorch

Das SageMaker Python SDK v2.212.0 und höher
PyTorch v2.2.0 und höher

FP8(8-Bit-Fließkomma-Präzision) ist ein Datentyp, der sich als weiteres Paradigma zur Beschleunigung des Deep-Learning-Trainings von LLM-Modellen herausgestellt hat. Mit der Veröffentlichung von NVIDIA H100, die FP8 Datentypen GPUs unterstützt, können Sie von den Vorteilen der Leistungsverbesserungen auf P5-Instances profitieren, die mit dem H100 ausgestattet sind GPUs, und gleichzeitig das verteilte Training mit gemischter Präzision beschleunigen. FP8

Der FP8 Datentyp verzweigt sich weiter in die Formate E4M3 und E5M2. E4M3 bietet eine bessere Präzision, hat einen begrenzten Dynamikbereich und ist ideal für den Vorwärtspass beim Modelltraining. E5M2 hat einen größeren Dynamikbereich, hat aber eine geringere Präzision und eignet sich besser für den Rückwärtspass, bei dem Präzision weniger wichtig ist und ein größerer Dynamikbereich von Vorteil ist. Daher empfehlen wir Ihnen, die FP8 Hybridstrategie zu verwenden, um diese Eigenschaften effektiv zu nutzen.

Bei Datentypen mit halber Genauigkeit (FP16 und BF16) lösen globale Techniken zur Verlustskalierung wie statische Verlustskalierung oder dynamische Verlustskalierung Konvergenzprobleme, die sich aus Informationsverlusten aufgrund von Rundungsgradienten bei halber Genauigkeit ergeben. Der Dynamikbereich von FP8 ist jedoch noch enger, und die Techniken zur globalen Verlustskalierung reichen nicht aus. An diesem Punkt benötigen wir eine feinkörnigere Skalierungstechnik pro Tensor. Die verzögerte Skalierung ist eine Strategie, bei der ein Skalierungsfaktor auf der Grundlage der maximalen absoluten Werte ausgewählt wird, die in einer Reihe von Tensoren aus früheren Iterationen beobachtet wurden. Bei dieser Strategie gibt es einen Kompromiss: Sie nutzt alle Leistungsvorteile der FP8 Berechnung, benötigt aber Speicherplatz, um den Verlauf der Höchstwerte von Tensoren zu speichern. Weitere Informationen zur Strategie der verzögerten Skalierung im Allgemeinen finden Sie im paper FP8 Formate für Deep Learning.

In der Praxis FP8 ist die Verwendung in allen Trainingsszenarien auf P5-Instanzen hilfreich. Wir empfehlen dringend, die Aktivierung FP8 wann immer möglich zu aktivieren, um die Trainingsleistung zu verbessern.

SMP v2 unterstützt Transformer Engine von Haus aus. Wenn Sie also ein FP8 Training mit SMP v2 auf P5-Instanzen von SageMaker AI (ml.p5.48xlarge) ausführen, müssen Sie nur torch.sagemaker in Ihr Trainingsskript importieren und weiterhin das native Python-Paket Transformer Engine verwenden. Weitere Informationen zur Verwendung der Transformer Engine für allgemeine FP8 Trainingszwecke finden Sie unter Verwendung FP8 mit Transformer Engine in der NVIDIA Transformer Engine-Dokumentation. Der folgende Codeausschnitt zeigt, wie die Codezeilen für den Import der SMP-Bibliothek und die Einrichtung FP8 in Ihrem Trainingsskript aussehen sollten.


import torch.sagemaker as tsm
import transformer_engine.pytorch as te
from transformer_engine.common.recipe import DelayedScaling, Format

# Initialize the SMP torch.sagemaker API.
tsm.init()

# Define a transformer model and wrap it with the torch.sagemaker.transform API.
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_config(ModelConfig)
model = tsm.transform(model)

# Enable E4M3 during forward pass, E5M2 during backward pass.
fp8_format = Format.HYBRID

# Create an FP8 recipe.
fp8_recipe = DelayedScaling(fp8_format=fp8_format, amax_history_len=32, amax_compute_algo="max")

# Enable FP8 autocasting.
with te.fp8_autocast(enabled=True, fp8_recipe=fp8_recipe, fp8_group=tsm.state.world_process_group):
    out = model(inp)

loss = out.sum()
loss.backward()

Ein praktisches Beispiel für das FP8 Training mit SMP v2 auf P5-Instances finden Sie im Beispiel-Notizbuch unter Accelerate SageMaker PyTorch FSDP Training of Llama-v2 (oder GPT-Neox) with on P5-Instances. FP8

Gemischtes Präzisionstraining mit Datentypen mit halber Genauigkeit unter Verwendung von FSDP PyTorch

SMP v2 unterstützt PyTorch FSDP MixedPrecision für Trainingsjobs auf P4- und P5-Instances. PyTorch FSDP bietet verschiedene Konfigurationen für gemischte Präzision, sowohl zur Leistungsverbesserung als auch zur Speicherreduzierung.

Anmerkung

Dieses Training mit gemischter Präzision und der PyTorch FSDP-Funktion ist in der folgenden Kombination aus Bibliotheken von SageMaker und der PyTorch Bibliothek verfügbar.

SMP v2.0.0 und höher
das SageMaker Python SDK v2.200.0 und höher
PyTorch v2.0.1 und höher

Die Standardmethode, ein Modell für Mixed Precision zu konfigurieren, besteht darinfloat32, das Modell in zu erstellen und dann FSDP zu erlauben, die Parameter in float16 oder bfloat16 im laufenden Betrieb umzuwandeln, indem eine MixedPrecision Richtlinie übergeben wird, wie im folgenden Codeausschnitt gezeigt. Weitere Informationen zu den Optionen zum Ändern der Parameter, der Reduzierung oder der Puffer dtype für gemischte Genauigkeit in finden Sie in PyTorch der Dokumentation unter PyTorch FSDP-API MixedPrecision. PyTorch


# Native PyTorch API
from torch.distributed.fsdp import MixedPrecision

dtype = torch.bfloat16
mixed_precision_policy = MixedPrecision(
    param_dtype=dtype, reduce_dtype=dtype, buffer_dtype=dtype
)

model = FSDP(
    model,
    ...,
    mixed_precision=mixed_precision_policy
)

Beachten Sie, dass bei bestimmten Modellen (wie dem Hugging Face Transformers Lama-Modell) Puffer als erwartet werden. float32 Um das Objekt zu verwendenfloat32, torch.bfloat16 ersetzen Sie es durch torch.float32 in der Zeile, die das Objekt definiert. dtype

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Kompatibilität mit der SMDDP-Bibliothek

Verzögerte Parameterinitialisierung